diff --git a/network-poc/SUPERAGENTS.md b/network-poc/SUPERAGENTS.md index 847bcda..a0a44c4 100644 --- a/network-poc/SUPERAGENTS.md +++ b/network-poc/SUPERAGENTS.md @@ -288,3 +288,66 @@ Taso 5 ██ ← evoluutio (viikko) ``` Taso 1 antaa suurimman hyödyn nopeimmin. Taso 4 (itsekorjaava looppi) on toiseksi tärkein koska se moninkertaistaa onnistumisprosentin. Taso 5 on pitkän aikavälin investointi. + +## Mallisuositukset VRAM-luokittain + +Testattu 2026-04-14 Kipinä CodeBench -benchmarkilla (3 skenaariota: todo, users, blog). Kaikki ajot `think: false`, `num_ctx: 16384`. + +### Suositellut mallit + +| VRAM | Malli | Pisteet | Testit | tok/s | VRAM-käyttö | +|------|-------|---------|--------|-------|-------------| +| **4 GB** | qwen3:4b | ★★☆☆☆ 33p | 6/6* | 47 | ~3.5 GB | +| **8 GB** | **qwen3:8b** | **★★★★★ 95p** | 25/27 (93%) | **99** | ~7 GB | +| **16 GB** | **qwen3:14b** | **★★★★★ 100p** | 25/25 (100%) | 60 | ~11 GB | +| **24 GB** | **qwen3-coder:30b** | **★★★★★ 97p** | 23/24 (96%) | **123** | ~22 GB | +| **48 GB** | qwen3-coder:30b + qwen3:14b | — | — | — | ~33 GB | + +*qwen3:4b: todo 6/6 täydellinen, mutta users ja blog epäonnistuvat speksivaiheessa + +### Perustelut + +**4 GB** — qwen3:4b (2.5 GB + ~1 GB KV-cache). Ainoa toimiva vaihtoehto. Riittää yksinkertaisiin CRUD-tehtäviin mutta monimutkaisten skenaarioiden speksivaihe epäonnistuu. + +**8 GB** — qwen3:8b on benchmarkin paras hinta-laatu. 95p ja 99 tok/s viidellä gigalla. Lähes yhtä hyvä kuin 2× isompi qwen3:14b. + +**16 GB** — qwen3:14b, benchmarkin kokonaisvoittaja: 100p kaikissa skenaarioissa. 4 GB jää muulle käytölle (IDE, selain, OS). + +**24 GB** — qwen3-coder:30b, nopein huippumalli (123 tok/s). Agenttiloopissa nopeusero on merkittävä: 3 skenaariota 94 sekunnissa vs. qwen3:14b 152 sekunnissa. + +**48 GB** — kaksi mallia rinnakkain: qwen3-coder:30b raskaaseen koodingenerointiin, qwen3:14b kevyempiin tehtäviin (korjaukset, speksit, refaktorointi). Yhteensä ~33 GB, 15 GB puskuria. + +### Hylätyt vaihtoehdot + +| Malli | Koko | Pisteet | Miksi ei | +|-------|------|---------|----------| +| qwen2.5-coder:3b | 1.9 GB | 33p | qwen3:4b parempi samoilla pisteillä | +| qwen2.5-coder:7b | 4.7 GB | 26p | qwen3:8b päihittää selvästi (95p vs 26p) | +| qwen2.5-coder:32b | 19.9 GB | 79p* | qwen3-coder:30b parempi ja nopeampi | +| qwen3.5:35b | 24 GB | 40–60p | Epätasainen, 0/1 collection erroreja | +| qwen3.5:27b | 17.4 GB | 54p | qwen3:14b parempi ja pienempi | +| gemma4:31b | 19.9 GB | 80p | Hyvä laatu mutta 4× hitaampi (28 tok/s) | +| gemma4:e4b | 9.6 GB | 58p | qwen3:8b parempi ja pienempi | +| codestral:22b | 12.6 GB | 88p | Mistral-perheen paras, varamalli | +| devstral:24b | 14.3 GB | 44p | Agentti-malli, huono koodigeneroinnissa | +| mistral-small3.1:24b | 15.5 GB | 30p | Heikko, test_main.py puuttui usein | +| qwen3-coder-next | 51 GB | 69p | Pettymys suhteessa kokoon | + +*epätasainen: todo 100p, users 0p, blog 63p + +### Thinking-moodi + +Testattu qwen3:14b ja qwen3:8b thinking-moodilla (`--think`). Tulos: **thinking huonontaa tuloksia**. + +| Malli | No-think | Think | Ero | +|-------|----------|-------|-----| +| qwen3:14b | ★★★★★ 100p | ★★★☆☆ 51p | −49p | +| qwen3:8b | ★★★★★ 95p | ★★★★☆ 77p | −18p | + +Ajattelu tuottaa 2–3× enemmän tokeneita mutta laatu laskee. Suositus: **käytä aina `think: false`** koodingenerointiin. + +### Yllätykset + +1. **Yleismallit voittivat kooderimallit.** qwen3:8b (5 GB yleismalli, 95p) päihittää qwen2.5-coder:32b (20 GB kooderimalli, 79p). +2. **qwen3:14b on paras.** 9.3 GB malli sai 100p — parempi kuin mikään isompi malli. +3. **Koko ei ratkaise.** qwen3-coder-next (51 GB) sai vain 69p. gemma4:31b (20 GB) sai 80p. qwen3:14b (9.3 GB) sai 100p.