SUPERAGENTS.md: mallisuositukset VRAM-luokittain benchmark-datan perusteella

4GB qwen3:4b, 8GB qwen3:8b (95p), 16GB qwen3:14b (100p), 24GB qwen3-coder:30b (97p, 123 tok/s), 48GB molemmat rinnakkain. Thinking-moodi huonontaa tuloksia. Yleismallit voittivat kooderimallit.
2026-04-14 10:33:35 +03:00
parent d02f6a51c1
commit 838d5fbd73
1 changed files with 63 additions and 0 deletions
--- a/network-poc/SUPERAGENTS.md
+++ b/network-poc/SUPERAGENTS.md
@@ -288,3 +288,66 @@ Taso 5  ██          ← evoluutio (viikko)
 ```

 Taso 1 antaa suurimman hyödyn nopeimmin. Taso 4 (itsekorjaava looppi) on toiseksi tärkein koska se moninkertaistaa onnistumisprosentin. Taso 5 on pitkän aikavälin investointi.
+
+## Mallisuositukset VRAM-luokittain
+
+Testattu 2026-04-14 Kipinä CodeBench -benchmarkilla (3 skenaariota: todo, users, blog). Kaikki ajot `think: false`, `num_ctx: 16384`.
+
+### Suositellut mallit
+
+| VRAM | Malli | Pisteet | Testit | tok/s | VRAM-käyttö |
+|------|-------|---------|--------|-------|-------------|
+| **4 GB** | qwen3:4b | ★★☆☆☆ 33p | 6/6* | 47 | ~3.5 GB |
+| **8 GB** | **qwen3:8b** | **★★★★★ 95p** | 25/27 (93%) | **99** | ~7 GB |
+| **16 GB** | **qwen3:14b** | **★★★★★ 100p** | 25/25 (100%) | 60 | ~11 GB |
+| **24 GB** | **qwen3-coder:30b** | **★★★★★ 97p** | 23/24 (96%) | **123** | ~22 GB |
+| **48 GB** | qwen3-coder:30b + qwen3:14b | — | — | — | ~33 GB |
+
+*qwen3:4b: todo 6/6 täydellinen, mutta users ja blog epäonnistuvat speksivaiheessa
+
+### Perustelut
+
+**4 GB** — qwen3:4b (2.5 GB + ~1 GB KV-cache). Ainoa toimiva vaihtoehto. Riittää yksinkertaisiin CRUD-tehtäviin mutta monimutkaisten skenaarioiden speksivaihe epäonnistuu.
+
+**8 GB** — qwen3:8b on benchmarkin paras hinta-laatu. 95p ja 99 tok/s viidellä gigalla. Lähes yhtä hyvä kuin 2× isompi qwen3:14b.
+
+**16 GB** — qwen3:14b, benchmarkin kokonaisvoittaja: 100p kaikissa skenaarioissa. 4 GB jää muulle käytölle (IDE, selain, OS).
+
+**24 GB** — qwen3-coder:30b, nopein huippumalli (123 tok/s). Agenttiloopissa nopeusero on merkittävä: 3 skenaariota 94 sekunnissa vs. qwen3:14b 152 sekunnissa.
+
+**48 GB** — kaksi mallia rinnakkain: qwen3-coder:30b raskaaseen koodingenerointiin, qwen3:14b kevyempiin tehtäviin (korjaukset, speksit, refaktorointi). Yhteensä ~33 GB, 15 GB puskuria.
+
+### Hylätyt vaihtoehdot
+
+| Malli | Koko | Pisteet | Miksi ei |
+|-------|------|---------|----------|
+| qwen2.5-coder:3b | 1.9 GB | 33p | qwen3:4b parempi samoilla pisteillä |
+| qwen2.5-coder:7b | 4.7 GB | 26p | qwen3:8b päihittää selvästi (95p vs 26p) |
+| qwen2.5-coder:32b | 19.9 GB | 79p* | qwen3-coder:30b parempi ja nopeampi |
+| qwen3.5:35b | 24 GB | 40–60p | Epätasainen, 0/1 collection erroreja |
+| qwen3.5:27b | 17.4 GB | 54p | qwen3:14b parempi ja pienempi |
+| gemma4:31b | 19.9 GB | 80p | Hyvä laatu mutta 4× hitaampi (28 tok/s) |
+| gemma4:e4b | 9.6 GB | 58p | qwen3:8b parempi ja pienempi |
+| codestral:22b | 12.6 GB | 88p | Mistral-perheen paras, varamalli |
+| devstral:24b | 14.3 GB | 44p | Agentti-malli, huono koodigeneroinnissa |
+| mistral-small3.1:24b | 15.5 GB | 30p | Heikko, test_main.py puuttui usein |
+| qwen3-coder-next | 51 GB | 69p | Pettymys suhteessa kokoon |
+
+*epätasainen: todo 100p, users 0p, blog 63p
+
+### Thinking-moodi
+
+Testattu qwen3:14b ja qwen3:8b thinking-moodilla (`--think`). Tulos: **thinking huonontaa tuloksia**.
+
+| Malli | No-think | Think | Ero |
+|-------|----------|-------|-----|
+| qwen3:14b | ★★★★★ 100p | ★★★☆☆ 51p | −49p |
+| qwen3:8b | ★★★★★ 95p | ★★★★☆ 77p | −18p |
+
+Ajattelu tuottaa 2–3× enemmän tokeneita mutta laatu laskee. Suositus: **käytä aina `think: false`** koodingenerointiin.
+
+### Yllätykset
+
+1. **Yleismallit voittivat kooderimallit.** qwen3:8b (5 GB yleismalli, 95p) päihittää qwen2.5-coder:32b (20 GB kooderimalli, 79p).
+2. **qwen3:14b on paras.** 9.3 GB malli sai 100p — parempi kuin mikään isompi malli.
+3. **Koko ei ratkaise.** qwen3-coder-next (51 GB) sai vain 69p. gemma4:31b (20 GB) sai 80p. qwen3:14b (9.3 GB) sai 100p.