-
2d1b1d3ec6
initial commit: agentic office
main
jaakko
2026-04-15 13:14:39 +03:00
-
1d701ae75e
CodeBench: --boss orkestroija — iso malli analysoi, pieni korjaa
jaakko
2026-04-15 00:51:31 +03:00
-
a32c4787f8
CodeBench: plaintext-speksi pienille malleille
jaakko
2026-04-15 00:37:34 +03:00
-
6ccf6fb0e1
CodeBench: stripaa === marker === file-by-file outputista
jaakko
2026-04-15 00:28:57 +03:00
-
a3ea0c2fda
CodeBench: file-by-file build-validointi vasta kun kaikki tiedostot valmiina
jaakko
2026-04-15 00:21:36 +03:00
-
3b1a02a9af
CodeBench: go build output ei vuoda terminaaliin (stdio: pipe)
jaakko
2026-04-15 00:12:57 +03:00
-
56133b5d19
CodeBench: siistimpi file-by-file virheilmoitus
jaakko
2026-04-15 00:12:20 +03:00
-
9670c85750
CodeBench: file-by-file välitön go build -validointi + korjausloop
jaakko
2026-04-15 00:10:06 +03:00
-
20a1e5f015
CodeBench: --convert-model Python→Go pipeline
jaakko
2026-04-14 23:54:45 +03:00
-
a16c33f4fb
CodeBench: go.mod-generointi ennen missing-tarkistusta
jaakko
2026-04-14 23:37:09 +03:00
-
afef340eb8
CodeBench: file-by-file logiin tokenit, rivimäärä ja tok/s per tiedosto
jaakko
2026-04-14 23:36:29 +03:00
-
a65a25c56c
CodeBench: --file-by-file generointi pienille malleille
jaakko
2026-04-14 23:31:20 +03:00
-
178bef1277
CodeBench: korvaa go.mod aina golden versiolla — pienet mallit tuottavat vääriä moduulipolkuja
jaakko
2026-04-14 23:14:07 +03:00
-
1649d2e864
CodeBench: --spec-ollama lippu eri Ollama-instanssille spec-vaiheissa
jaakko
2026-04-14 23:05:07 +03:00
-
3caefa2f6e
CodeBench: automaattinen go.mod-korjaus pienille malleille
jaakko
2026-04-14 23:02:44 +03:00
-
65e7365e75
Poistettu virheelliset 8b Go-tulokset (väärä promptti: code-small → Python)
jaakko
2026-04-14 23:00:31 +03:00
-
9aa4a46768
CodeBench: kielisuffiksi priorisoituu prompttivalinnassa (code-go > code-small)
jaakko
2026-04-14 22:58:14 +03:00
-
61966783e3
CodeBench: spec-simple.md pienille malleille
jaakko
2026-04-14 22:06:29 +03:00
-
7bcba3daf8
CodeBench: --spec-model lippu — eri malli spec-vaiheille (1-2)
jaakko
2026-04-14 21:43:44 +03:00
-
7d49d62f81
CodeBench: kompaktoitu Go handlers.go golden — error handling yhdelle riville
jaakko
2026-04-14 21:15:57 +03:00
-
5b8919ef89
CodeBench: sekunnit aikaleimaan (T17-58 → T17-58-23)
jaakko
2026-04-14 21:10:52 +03:00
-
a4942edb9f
CodeBench: --no-orchestrate lippu orkestroinnin ohittamiseen
jaakko
2026-04-14 21:08:34 +03:00
-
8fc31f2a53
CodeBench: kierroskohtainen output-dir + tiivistetty Go golden example
jaakko
2026-04-14 20:57:50 +03:00
-
01364b7031
CodeBench: korjaa Go-pipeline — tiedostoparseri + go mod tidy
jaakko
2026-04-14 19:27:19 +03:00
-
f3cd1347ab
CodeBench: Go-tuki — Chi + SQLite + httptest
jaakko
2026-04-14 19:20:18 +03:00
-
5ea2540588
CodeBench: promptit kokonaan englanniksi — poistettu suomenkieliset esimerkit
jaakko
2026-04-14 18:58:20 +03:00
-
b91253235e
CodeBench: lisätty qwen2.5-coder:32b profiili Rust-kandidaatiksi
jaakko
2026-04-14 18:56:51 +03:00
-
ac2e3e92fc
CodeBench: orkestrointi kaikille malleille ja kielille kun >1 entiteetti
jaakko
2026-04-14 18:47:34 +03:00
-
0975385101
CodeBench: reqwest 0.13 + Docker volume cache + rust:latest
jaakko
2026-04-14 18:42:05 +03:00
-
bb8be3ffb4
CodeBench: revert-if-worse + erillinen testFixRounds-laskuri
jaakko
2026-04-14 18:24:46 +03:00
-
8fbb8eda2d
CodeBench: esikäännä Rust-riippuvuudet Docker-imageen — 35x nopeampi
jaakko
2026-04-14 18:16:15 +03:00
-
742f331d93
CodeBench: Rust cargo check -vaihe ennen testejä + käännösvirheiden itsekorjaus
jaakko
2026-04-14 17:52:45 +03:00
-
2f602717b8
CodeBench: tiivistetty todo-rs.md golden example 540→331 riviä
jaakko
2026-04-14 17:50:19 +03:00
-
d003f73217
CodeBench: tyhjennä GPU-muisti jokaisen kierroksen alussa
jaakko
2026-04-14 17:47:55 +03:00
-
882bcece06
CodeBench: kirjoita results.json jokaisen kierroksen jälkeen
jaakko
2026-04-14 17:45:54 +03:00
-
477c21efd0
CodeBench: Rust golden example — todo-rs.md + kielitietoinen valinta
jaakko
2026-04-14 17:37:38 +03:00
-
088bad7b21
CodeBench: code-rs.md — spawn_server-esimerkki, {id} vahvistus, init_db yksinkertaistus
jaakko
2026-04-14 17:08:26 +03:00
-
de3e33d46e
CodeBench: code-rs.md — korjaa Rust-prompti kolmeen kriittiseen ongelmaan
jaakko
2026-04-14 16:40:15 +03:00
-
dcdb360098
Benchmark-tulokset: orkestrointi nosti 8b blogin 0p → 80p (med)
jaakko
2026-04-14 15:45:27 +03:00
-
0b926c2cad
CodeBench Taso 3: orkestrointi — pilko entiteetti kerrallaan pienille malleille
jaakko
2026-04-14 15:00:40 +03:00
-
a8f731d38e
CodeBench: palautetaan 8b todo-readme.md — combined liian iso, hukkuu
jaakko
2026-04-14 14:58:15 +03:00
-
5d0baf3ff1
CodeBench: combined-readme.md — todo + blog golden example 8b:lle
jaakko
2026-04-14 14:54:12 +03:00
-
8e9fbc5422
CodeBench: code-small — FK update-testiesimerkki (author_id mukana PUT:ssa)
jaakko
2026-04-14 14:15:09 +03:00
-
06089a58b2
CodeBench: code-small — ForeignKey importin tarkennus (sqlalchemy, ei .orm)
jaakko
2026-04-14 14:05:59 +03:00
-
a25c52cff4
CodeBench: mallikohtainen golden example (profiles.json → golden kenttä)
jaakko
2026-04-14 14:04:28 +03:00
-
0c3303a640
CodeBench: tyhjennä VRAM automaattisesti ennen testiajoa
jaakko
2026-04-14 14:00:38 +03:00
-
ba48b737f2
CodeBench: --scenarios tukee yksittäistä skenaariota (todo/users/blog)
jaakko
2026-04-14 13:58:38 +03:00
-
a3f1ead3e6
CodeBench: code-small — test_list assert >= 1 (ei == 1)
jaakko
2026-04-14 13:58:13 +03:00
-
7fe72480b1
CodeBench: qwen3:8b primary-rooliin, FK-esimerkit code-small promptissa
jaakko
2026-04-14 13:55:40 +03:00
-
92964e322f
CodeBench: mallikohtaiset promptiprofiilit (profiles.json)
jaakko
2026-04-14 13:54:26 +03:00
-
e54c1b057c
Golden example: tarkat 6 testiä per entiteetti, ei ylimääräisiä
jaakko
2026-04-14 12:56:50 +03:00
-
1de7e5c90b
CodeBench: nopea syntaksitarkistus ennen Docker-ajoa
jaakko
2026-04-14 12:52:03 +03:00
-
e360896436
CodeBench Taso 4: itsekorjaava looppi — syötä pytest-virhe mallille
jaakko
2026-04-14 12:46:06 +03:00
-
6a40ca5730
CodeBench: golden example markdown-muodossa (koodi + selitykset)
jaakko
2026-04-14 12:38:25 +03:00
-
2d470ee418
CodeBench: deprecated-patterns.md + inline deprecated-säännöt promptissa
jaakko
2026-04-14 12:28:35 +03:00
-
062e6af776
CodeBench: vahvista CRITICAL-sääntö — ei ylimääräisiä kenttiä
jaakko
2026-04-14 12:27:10 +03:00
-
75870c1100
CodeBench: korjaa aikaleima-sääntö — ei lisää ylimääräisiä kenttiä, func import
jaakko
2026-04-14 12:18:36 +03:00
-
6e83fad31d
CodeBench: 3 uutta promptisääntöä 5-kierroksen virheanalyysistä
jaakko
2026-04-14 12:14:36 +03:00
-
0f3310996e
CodeBench: oletus-URL 127.0.0.1 localhostin sijaan (Node 18 IPv6-ongelma)
jaakko
2026-04-14 11:08:21 +03:00
-
e2a16b8ff6
CodeBench: väliraportti jokaisen kierroksen jälkeen
jaakko
2026-04-14 11:04:51 +03:00
-
a0d3748faf
CodeBench: --rounds N toistaa testiajot 1-10 kertaa
jaakko
2026-04-14 11:03:00 +03:00
-
01b4fb8e22
CodeBench: --compact tiivistää golden examplen templaatiksi
jaakko
2026-04-14 10:59:39 +03:00
-
e7b33b7d6f
CodeBench: Rust-tuki (--lang rust), golden example todo-rs, Dockerfile.cargo-test
jaakko
2026-04-14 10:55:50 +03:00
-
9da5540ca2
Golden example: todo-rs (Axum + SQLx + SQLite)
jaakko
2026-04-14 10:50:16 +03:00
-
838d5fbd73
SUPERAGENTS.md: mallisuositukset VRAM-luokittain benchmark-datan perusteella
jaakko
2026-04-14 10:33:35 +03:00
-
d02f6a51c1
CodeBench: --think lippu thinking-moodin testaamiseen
jaakko
2026-04-14 10:12:44 +03:00
-
8ba9ef83a3
CodeBench: num_ctx 16384 — rajoita konteksti-ikkuna VRAM-säästöksi
jaakko
2026-04-14 09:49:30 +03:00
-
f50dc884a3
CodeBench: automaattinen aikaleima ja arkistointi results/-kansioon
jaakko
2026-04-14 09:47:32 +03:00
-
7b27800390
Siirrä kipina-codebench projektin päätasolle
jaakko
2026-04-14 09:44:14 +03:00
-
b93ae2fd1b
Golden examples: README.md — ohje uusien esimerkkien luomiseen
jaakko
2026-04-14 09:44:02 +03:00
-
4c116428c3
kipina-codebench: itsenäinen benchmark-moduli git-submoduliksi
jaakko
2026-04-14 09:42:20 +03:00
-
542230f091
Benchmark: promptisääntö — update-testidatan pitää sisältää kaikki pakolliset kentät
jaakko
2026-04-14 09:31:42 +03:00
-
c217271907
Benchmark-tulokset 2026-04-14: mistral-perhe ja top3-vertailu
jaakko
2026-04-14 09:30:40 +03:00
-
a08b5f3893
Benchmark: think:false — kytke ajattelu pois Ollama-kutsuissa
jaakko
2026-04-14 08:48:03 +03:00
-
25b9ab0c37
Benchmark: käytä thinking-kenttää fallbackina jos content tyhjä
jaakko
2026-04-14 08:45:06 +03:00
-
62c9b6e17e
Benchmark: nosta token-rajoja thinking-malleja varten
jaakko
2026-04-14 08:42:32 +03:00
-
ad097ca712
Benchmark: HTML-raportti laskee pisteet itse (toimii vanhoilla tuloksilla)
jaakko
2026-04-14 08:29:47 +03:00
-
868d116961
Benchmark: HTML-webbiraportit tuloksista
jaakko
2026-04-14 08:27:01 +03:00
-
02e3701d77
Benchmark: output-tokenit yhteenvetotaulussa per skenaario ja yhteensä
jaakko
2026-04-14 08:20:32 +03:00
-
b3abf4e89f
Benchmark: mallikohtainen yhteenvetotaulu + kokonaisaika
jaakko
2026-04-14 08:19:27 +03:00
-
9f2899b83d
Benchmark: pisteytys (0-100) ja tähtiluokitus tuloksissa
jaakko
2026-04-14 08:10:27 +03:00
-
4a811e4171
Benchmark: näytä kontekstin koko (promptin token-arvio) tuloksissa
jaakko
2026-04-14 08:05:59 +03:00
-
8efbf96295
Golden example: blog (taso 2, relaatiot Author → Post)
jaakko
2026-04-14 08:03:21 +03:00
-
16f40a7536
Benchmark: pytest ajetaan Docker-kontissa (kipina-pytest)
jaakko
2026-04-14 07:39:23 +03:00
-
42ee959781
Benchmark: uv init + uv add hoitaa projektiasetuksen
jaakko
2026-04-14 07:34:06 +03:00
-
0850a139f1
Benchmark: fallback korvaa Poetry-pyproject.toml PEP 621 -versiolla
jaakko
2026-04-14 07:30:55 +03:00
-
d6a544909c
Benchmark: kultainen esimerkki + zensical-dokumentointiohjeet
jaakko
2026-04-14 07:28:47 +03:00
-
8f154a578c
SUPERAGENTS.md: benchmark-arkkitehtuuri kehityksen todentamiseen
jaakko
2026-04-14 07:16:37 +03:00
-
7221f5e920
SUPERAGENTS.md: itseoppivan koodausagentin arkkitehtuuri ja toteutussuunnitelma
jaakko
2026-04-14 07:14:17 +03:00
-
34a56e408d
Benchmark: stripThinking tukee myös qwen3/3.5 <think>-tageja
jaakko
2026-04-14 06:58:18 +03:00
-
ecd4bc2ac3
Benchmark: nosta koodigeneroinnin token-raja 4096 → 8192
jaakko
2026-04-14 06:38:40 +03:00
-
7dc2af59c3
Benchmark: stripThinking poistaa gemma4-ajattelutagit vastauksista
jaakko
2026-04-14 06:35:31 +03:00
-
4aa09e1025
Benchmark: LLM generoi koodin templaattien sijaan
jaakko
2026-04-13 22:23:35 +03:00
-
20cea8f268
Model benchmark: testaa kaikki Ollama-mallit järjestelmällisesti
projekti1
jaakko
2026-04-13 22:08:47 +03:00
-
38a18c555b
Debug: reititys logittaa kaikki solmut ja niiden tilat
jaakko
2026-04-13 21:53:40 +03:00
-
8138e41aa1
native-noden tuunausta
jaakko
2026-04-13 21:29:05 +03:00
-
6ee5bdf960
Native node: lämmittelykutsu lataa mallin VRAM:iin heti käynnistyksessä
jaakko
2026-04-13 21:23:56 +03:00
-
cf3bf54bf8
kipina-node: automaattinen versiopäivitys build-hashilla
jaakko
2026-04-13 21:21:48 +03:00
-
56f21a96c9
TUI: VRAM-tila värikoodattu (vihreä=100% GPU, keltainen=osittainen, punainen=CPU)
jaakko
2026-04-13 21:12:50 +03:00
-
763b93396c
Reititys: busy-solmut suodatetaan pois — työ jakautuu solmuille
jaakko
2026-04-13 21:09:24 +03:00