agentic-studio

jaakko/agentic-studio

Fork 0

Commit Graph

Author	SHA1	Message	Date
jaakko	4aa09e1025	Benchmark: LLM generoi koodin templaattien sijaan Vaihe 3 käyttää nyt oikeaa LLM-kutsua (CODE_SYSTEM-prompti) koodin generointiin. Templaattifunktiot poistettu kokonaan. Tämä mittaa mallin todellista koodingenerointikykyä.	2026-04-13 22:23:35 +03:00
jaakko	20cea8f268	Model benchmark: testaa kaikki Ollama-mallit järjestelmällisesti Ajaa täyden pipeline-kierroksen per malli × skenaario: 1. Client-prompti → vaatimukset 2. Manager/SPEC_SYSTEM → JSON-speksi 3. Template-generointi → koodi 4. Validointi + LLM-korjaussilmukka 5. uv sync + pytest Tuottaa vertailutaulukon: speksin laatu, testien tulos, nopeus. Tukee suoraa Ollamaa (--ollama) ja hub-reittiä (--hub).	2026-04-13 22:08:47 +03:00

Author

SHA1

Message

Date

jaakko

4aa09e1025

Benchmark: LLM generoi koodin templaattien sijaan

Vaihe 3 käyttää nyt oikeaa LLM-kutsua (CODE_SYSTEM-prompti)
koodin generointiin. Templaattifunktiot poistettu kokonaan.
Tämä mittaa mallin todellista koodingenerointikykyä.

2026-04-13 22:23:35 +03:00

jaakko

20cea8f268

Model benchmark: testaa kaikki Ollama-mallit järjestelmällisesti

Ajaa täyden pipeline-kierroksen per malli × skenaario:
1. Client-prompti → vaatimukset
2. Manager/SPEC_SYSTEM → JSON-speksi
3. Template-generointi → koodi
4. Validointi + LLM-korjaussilmukka
5. uv sync + pytest

Tuottaa vertailutaulukon: speksin laatu, testien tulos, nopeus.
Tukee suoraa Ollamaa (--ollama) ja hub-reittiä (--hub).

2026-04-13 22:08:47 +03:00

2 Commits