jaakko/agentic-studio - agentic-studio - Gitea: Git with a cup of tea

jaakko/agentic-studio

Author	SHA1	Message	Date
jaakko	a25c52cff4	CodeBench: mallikohtainen golden example (profiles.json → golden kenttä) qwen3-coder:30b → todo.md (annotaatiot) qwen3:8b → todo-readme.md (GitHub README -muoto, tutuin koulutusdata) Golden example ladataan dynaamisesti per malli pipelinen sisällä.	2026-04-14 14:04:28 +03:00
jaakko	0c3303a640	CodeBench: tyhjennä VRAM automaattisesti ennen testiajoa	2026-04-14 14:00:38 +03:00
jaakko	ba48b737f2	CodeBench: --scenarios tukee yksittäistä skenaariota (todo/users/blog)	2026-04-14 13:58:38 +03:00
jaakko	92964e322f	CodeBench: mallikohtaiset promptiprofiilit (profiles.json) - profiles.json: malli → profiili → prompti -mappaus - code-small.md: tiivistetty prompti pienille malleille (8b, 4b) - benchmark valitsee automaattisesti oikean promptin mallin perusteella - qwen3-coder:30b → code.md (large), qwen3:8b → code-small.md (small)	2026-04-14 13:54:26 +03:00
jaakko	1de7e5c90b	CodeBench: nopea syntaksitarkistus ennen Docker-ajoa py_compile tarkistaa .py-tiedostot millisekunneissa. Syntaksivirhe → suoraan itsekorjaukseen, ohitetaan Docker (~10s säästö).	2026-04-14 12:52:03 +03:00
jaakko	e360896436	CodeBench Taso 4: itsekorjaava looppi — syötä pytest-virhe mallille Jos testit epäonnistuvat, LLM saa virheilmoituksen + koodin ja korjaa. Max 3 korjauskierrosta. Testattu: qwen3:8b users 0/6 → korjaus → 6/6.	2026-04-14 12:46:06 +03:00
jaakko	6a40ca5730	CodeBench: golden example markdown-muodossa (koodi + selitykset) todo.md yhdistää koodin ja annotaatiot: miksi pattern on valittu, mitä EI saa tehdä. 1567 tokenia (vs raaka 1340, compact 335). Benchmark lataa .md-version oletuksena, fallback erillisiin tiedostoihin.	2026-04-14 12:38:25 +03:00
jaakko	0f3310996e	CodeBench: oletus-URL 127.0.0.1 localhostin sijaan (Node 18 IPv6-ongelma)	2026-04-14 11:08:21 +03:00
jaakko	e2a16b8ff6	CodeBench: väliraportti jokaisen kierroksen jälkeen Näyttää mediaanin, kaikkien kierrosten pisteet ja trendin (▲▼─).	2026-04-14 11:04:51 +03:00
jaakko	a0d3748faf	CodeBench: --rounds N toistaa testiajot 1-10 kertaa Kierrosyhteenveto näyttää mediaanin, min/max ja pass-raten per kierros. Käyttö: node benchmark.mjs --models qwen3:14b --scenarios all --rounds 3	2026-04-14 11:03:00 +03:00
jaakko	01b4fb8e22	CodeBench: --compact tiivistää golden examplen templaatiksi Python: 1340 → 335 tokenia (−75%) Rust: 3383 → 445 tokenia (−87%) Käyttö: node benchmark.mjs --compact --models qwen3:4b	2026-04-14 10:59:39 +03:00
jaakko	e7b33b7d6f	CodeBench: Rust-tuki (--lang rust), golden example todo-rs, Dockerfile.cargo-test - golden-examples/todo-rs/: Axum 0.8 + SQLx + SQLite, 10 testiä - prompts/code-rs.md: Rust-koodingenerointiprompt - Dockerfile.cargo-test: rust:1.87-slim testikontti - benchmark.mjs: --lang python\|rust, kieliriippuvainen golden example, parseri tukee cargo test -tuloksia, src/ alihakemistot	2026-04-14 10:55:50 +03:00
jaakko	d02f6a51c1	CodeBench: --think lippu thinking-moodin testaamiseen think:true + 3× token-raja (ajattelu vie ~2/3 tokeneista). Käyttö: node benchmark.mjs --think --models qwen3:14b	2026-04-14 10:12:44 +03:00
jaakko	8ba9ef83a3	CodeBench: num_ctx 16384 — rajoita konteksti-ikkuna VRAM-säästöksi 256K konteksti varaa ~15 GB KV-cachea vaikka benchmark käyttää ~3K. 16K riittää hyvin ja säästää merkittävästi VRAM:ia.	2026-04-14 09:49:30 +03:00
jaakko	f50dc884a3	CodeBench: automaattinen aikaleima ja arkistointi results/-kansioon Output-hakemisto /tmp/kipina-benchmark/2026-04-14T12-30/ Tulokset kopioidaan automaattisesti results/<aikaleima>.json/.html	2026-04-14 09:47:32 +03:00
jaakko	7b27800390	Siirrä kipina-codebench projektin päätasolle	2026-04-14 09:44:14 +03:00