868d116961
Benchmark: HTML-webbiraportit tuloksista
...
Standalone HTML-tiedosto joka sisältää:
- Yhteenvetokortit (keskiarvo, paras malli, nopein, testit)
- Mallikohtainen taulukko palkkikaavioilla
- Yksittäiset tulokset sortattavassa taulussa
- Dark mode, ei ulkoisia dependencyjä
2026-04-14 08:27:01 +03:00
02e3701d77
Benchmark: output-tokenit yhteenvetotaulussa per skenaario ja yhteensä
2026-04-14 08:20:32 +03:00
b3abf4e89f
Benchmark: mallikohtainen yhteenvetotaulu + kokonaisaika
...
Näyttää per malli: testit ja aika per skenaario, kokonaisläpäisy,
kokonaisaika, keskimääräinen tok/s ja keskipisteet.
2026-04-14 08:19:27 +03:00
9f2899b83d
Benchmark: pisteytys (0-100) ja tähtiluokitus tuloksissa
...
Pisteytys: speksi 10p + koodi 10p + testit 60p + korjaukset 20p.
Tähdet: ★★★★★ (90+), ★★★★☆ (70+), ★★★☆☆ (50+), ★★☆☆☆ (25+), ★☆☆☆☆ (1+).
Näkyy per-ajo rivillä, tulostaulussa ja yhteenvedossa.
2026-04-14 08:10:27 +03:00
4a811e4171
Benchmark: näytä kontekstin koko (promptin token-arvio) tuloksissa
2026-04-14 08:05:59 +03:00
16f40a7536
Benchmark: pytest ajetaan Docker-kontissa (kipina-pytest)
...
Kontti hoitaa uv init + uv add + pytest eristetyssä ympäristössä.
Python 3.14, ei VIRTUAL_ENV-ongelmia, täysi toistettavuus.
Image: docker build -t kipina-pytest -f tests/Dockerfile.pytest tests/
2026-04-14 07:39:23 +03:00
42ee959781
Benchmark: uv init + uv add hoitaa projektiasetuksen
...
LLM generoi enää 4 tiedostoa (ei pyproject.toml).
Pipeline: uv init → uv add deps → kirjoita .py → pytest.
Poistaa Poetry-yhteensopivuusongelmat kokonaan.
2026-04-14 07:34:06 +03:00
0850a139f1
Benchmark: fallback korvaa Poetry-pyproject.toml PEP 621 -versiolla
...
Kaikki testatut mallit generoivat [tool.poetry] -muodon
vaikka kultainen esimerkki näyttää [project]-muodon.
uv sync ei ymmärrä Poetrya → pytest ei asennu → kaatuu.
Fallback korvaa rikkinäisen pyproject.toml kultaisella versiolla.
2026-04-14 07:30:55 +03:00
d6a544909c
Benchmark: kultainen esimerkki + zensical-dokumentointiohjeet
...
- golden-examples/todo/: 6/6 PASS referenssitoteutus
- SQLAlchemy 2.0 (DeclarativeBase, Mapped, mapped_column)
- Pydantic v2 (ConfigDict)
- PEP 621 pyproject.toml, Python >=3.14
- Uniikki testidata per testi
- CODE_SYSTEM päivitetty: few-shot kultaisesta esimerkistä
- DOCUMENTATION.md: zensical-dokumentointiohjeet
2026-04-14 07:28:47 +03:00
34a56e408d
Benchmark: stripThinking tukee myös qwen3/3.5 <think>-tageja
2026-04-14 06:58:18 +03:00
ecd4bc2ac3
Benchmark: nosta koodigeneroinnin token-raja 4096 → 8192
...
gemma4:e4b tuotti 323 riviä ja tokenit loppuivat kesken,
pyproject.toml ei mahtunut vastaukseen.
2026-04-14 06:38:40 +03:00
7dc2af59c3
Benchmark: stripThinking poistaa gemma4-ajattelutagit vastauksista
2026-04-14 06:35:31 +03:00
4aa09e1025
Benchmark: LLM generoi koodin templaattien sijaan
...
Vaihe 3 käyttää nyt oikeaa LLM-kutsua (CODE_SYSTEM-prompti)
koodin generointiin. Templaattifunktiot poistettu kokonaan.
Tämä mittaa mallin todellista koodingenerointikykyä.
2026-04-13 22:23:35 +03:00
20cea8f268
Model benchmark: testaa kaikki Ollama-mallit järjestelmällisesti
...
Ajaa täyden pipeline-kierroksen per malli × skenaario:
1. Client-prompti → vaatimukset
2. Manager/SPEC_SYSTEM → JSON-speksi
3. Template-generointi → koodi
4. Validointi + LLM-korjaussilmukka
5. uv sync + pytest
Tuottaa vertailutaulukon: speksin laatu, testien tulos, nopeus.
Tukee suoraa Ollamaa (--ollama) ja hub-reittiä (--hub).
2026-04-13 22:08:47 +03:00