agentic-studio

Author	SHA1	Message	Date
jaakko	a08b5f3893	Benchmark: think:false — kytke ajattelu pois Ollama-kutsuissa Thinking-mallit (qwen3.5) käyttivät kaikki tokenit ajatteluun eikä content-kenttään jäänyt mitään. think:false pakottaa suoran vastauksen ilman ajattelublokkia.	2026-04-14 08:48:03 +03:00
jaakko	25b9ab0c37	Benchmark: käytä thinking-kenttää fallbackina jos content tyhjä qwen3.5 palauttaa vastauksen thinking-kentässä kun content on tyhjä. Lisätty debug-logi thinking-malleille.	2026-04-14 08:45:06 +03:00
jaakko	62c9b6e17e	Benchmark: nosta token-rajoja thinking-malleja varten qwen3.5 palauttaa ajattelun erillisessä thinking-kentässä, content jää tyhjäksi jos tokenit loppuvat kesken. Vaatimukset 1024→2048, speksi 2048→4096.	2026-04-14 08:42:32 +03:00
jaakko	ad097ca712	Benchmark: HTML-raportti laskee pisteet itse (toimii vanhoilla tuloksilla)	2026-04-14 08:29:47 +03:00
jaakko	868d116961	Benchmark: HTML-webbiraportit tuloksista Standalone HTML-tiedosto joka sisältää: - Yhteenvetokortit (keskiarvo, paras malli, nopein, testit) - Mallikohtainen taulukko palkkikaavioilla - Yksittäiset tulokset sortattavassa taulussa - Dark mode, ei ulkoisia dependencyjä	2026-04-14 08:27:01 +03:00
jaakko	02e3701d77	Benchmark: output-tokenit yhteenvetotaulussa per skenaario ja yhteensä	2026-04-14 08:20:32 +03:00
jaakko	b3abf4e89f	Benchmark: mallikohtainen yhteenvetotaulu + kokonaisaika Näyttää per malli: testit ja aika per skenaario, kokonaisläpäisy, kokonaisaika, keskimääräinen tok/s ja keskipisteet.	2026-04-14 08:19:27 +03:00
jaakko	9f2899b83d	Benchmark: pisteytys (0-100) ja tähtiluokitus tuloksissa Pisteytys: speksi 10p + koodi 10p + testit 60p + korjaukset 20p. Tähdet: ★★★★★ (90+), ★★★★☆ (70+), ★★★☆☆ (50+), ★★☆☆☆ (25+), ★☆☆☆☆ (1+). Näkyy per-ajo rivillä, tulostaulussa ja yhteenvedossa.	2026-04-14 08:10:27 +03:00
jaakko	4a811e4171	Benchmark: näytä kontekstin koko (promptin token-arvio) tuloksissa	2026-04-14 08:05:59 +03:00
jaakko	8efbf96295	Golden example: blog (taso 2, relaatiot Author → Post) 13 testiä, ForeignKey-relaatio, uniikki suomalainen testidata (Aleksis Kivi, Tove Jansson jne). Testattu Docker-kontissa.	2026-04-14 08:03:21 +03:00
jaakko	16f40a7536	Benchmark: pytest ajetaan Docker-kontissa (kipina-pytest) Kontti hoitaa uv init + uv add + pytest eristetyssä ympäristössä. Python 3.14, ei VIRTUAL_ENV-ongelmia, täysi toistettavuus. Image: docker build -t kipina-pytest -f tests/Dockerfile.pytest tests/	2026-04-14 07:39:23 +03:00
jaakko	42ee959781	Benchmark: uv init + uv add hoitaa projektiasetuksen LLM generoi enää 4 tiedostoa (ei pyproject.toml). Pipeline: uv init → uv add deps → kirjoita .py → pytest. Poistaa Poetry-yhteensopivuusongelmat kokonaan.	2026-04-14 07:34:06 +03:00
jaakko	0850a139f1	Benchmark: fallback korvaa Poetry-pyproject.toml PEP 621 -versiolla Kaikki testatut mallit generoivat [tool.poetry] -muodon vaikka kultainen esimerkki näyttää [project]-muodon. uv sync ei ymmärrä Poetrya → pytest ei asennu → kaatuu. Fallback korvaa rikkinäisen pyproject.toml kultaisella versiolla.	2026-04-14 07:30:55 +03:00
jaakko	d6a544909c	Benchmark: kultainen esimerkki + zensical-dokumentointiohjeet - golden-examples/todo/: 6/6 PASS referenssitoteutus - SQLAlchemy 2.0 (DeclarativeBase, Mapped, mapped_column) - Pydantic v2 (ConfigDict) - PEP 621 pyproject.toml, Python >=3.14 - Uniikki testidata per testi - CODE_SYSTEM päivitetty: few-shot kultaisesta esimerkistä - DOCUMENTATION.md: zensical-dokumentointiohjeet	2026-04-14 07:28:47 +03:00
jaakko	34a56e408d	Benchmark: stripThinking tukee myös qwen3/3.5 <think>-tageja	2026-04-14 06:58:18 +03:00
jaakko	ecd4bc2ac3	Benchmark: nosta koodigeneroinnin token-raja 4096 → 8192 gemma4:e4b tuotti 323 riviä ja tokenit loppuivat kesken, pyproject.toml ei mahtunut vastaukseen.	2026-04-14 06:38:40 +03:00
jaakko	7dc2af59c3	Benchmark: stripThinking poistaa gemma4-ajattelutagit vastauksista	2026-04-14 06:35:31 +03:00
jaakko	4aa09e1025	Benchmark: LLM generoi koodin templaattien sijaan Vaihe 3 käyttää nyt oikeaa LLM-kutsua (CODE_SYSTEM-prompti) koodin generointiin. Templaattifunktiot poistettu kokonaan. Tämä mittaa mallin todellista koodingenerointikykyä.	2026-04-13 22:23:35 +03:00
jaakko	20cea8f268	Model benchmark: testaa kaikki Ollama-mallit järjestelmällisesti Ajaa täyden pipeline-kierroksen per malli × skenaario: 1. Client-prompti → vaatimukset 2. Manager/SPEC_SYSTEM → JSON-speksi 3. Template-generointi → koodi 4. Validointi + LLM-korjaussilmukka 5. uv sync + pytest Tuottaa vertailutaulukon: speksin laatu, testien tulos, nopeus. Tukee suoraa Ollamaa (--ollama) ja hub-reittiä (--hub).	2026-04-13 22:08:47 +03:00

19 Commits