SUPERAGENTS.md: mallisuositukset VRAM-luokittain benchmark-datan perusteella
4GB qwen3:4b, 8GB qwen3:8b (95p), 16GB qwen3:14b (100p), 24GB qwen3-coder:30b (97p, 123 tok/s), 48GB molemmat rinnakkain. Thinking-moodi huonontaa tuloksia. Yleismallit voittivat kooderimallit.
This commit is contained in:
@@ -288,3 +288,66 @@ Taso 5 ██ ← evoluutio (viikko)
|
||||
```
|
||||
|
||||
Taso 1 antaa suurimman hyödyn nopeimmin. Taso 4 (itsekorjaava looppi) on toiseksi tärkein koska se moninkertaistaa onnistumisprosentin. Taso 5 on pitkän aikavälin investointi.
|
||||
|
||||
## Mallisuositukset VRAM-luokittain
|
||||
|
||||
Testattu 2026-04-14 Kipinä CodeBench -benchmarkilla (3 skenaariota: todo, users, blog). Kaikki ajot `think: false`, `num_ctx: 16384`.
|
||||
|
||||
### Suositellut mallit
|
||||
|
||||
| VRAM | Malli | Pisteet | Testit | tok/s | VRAM-käyttö |
|
||||
|------|-------|---------|--------|-------|-------------|
|
||||
| **4 GB** | qwen3:4b | ★★☆☆☆ 33p | 6/6* | 47 | ~3.5 GB |
|
||||
| **8 GB** | **qwen3:8b** | **★★★★★ 95p** | 25/27 (93%) | **99** | ~7 GB |
|
||||
| **16 GB** | **qwen3:14b** | **★★★★★ 100p** | 25/25 (100%) | 60 | ~11 GB |
|
||||
| **24 GB** | **qwen3-coder:30b** | **★★★★★ 97p** | 23/24 (96%) | **123** | ~22 GB |
|
||||
| **48 GB** | qwen3-coder:30b + qwen3:14b | — | — | — | ~33 GB |
|
||||
|
||||
*qwen3:4b: todo 6/6 täydellinen, mutta users ja blog epäonnistuvat speksivaiheessa
|
||||
|
||||
### Perustelut
|
||||
|
||||
**4 GB** — qwen3:4b (2.5 GB + ~1 GB KV-cache). Ainoa toimiva vaihtoehto. Riittää yksinkertaisiin CRUD-tehtäviin mutta monimutkaisten skenaarioiden speksivaihe epäonnistuu.
|
||||
|
||||
**8 GB** — qwen3:8b on benchmarkin paras hinta-laatu. 95p ja 99 tok/s viidellä gigalla. Lähes yhtä hyvä kuin 2× isompi qwen3:14b.
|
||||
|
||||
**16 GB** — qwen3:14b, benchmarkin kokonaisvoittaja: 100p kaikissa skenaarioissa. 4 GB jää muulle käytölle (IDE, selain, OS).
|
||||
|
||||
**24 GB** — qwen3-coder:30b, nopein huippumalli (123 tok/s). Agenttiloopissa nopeusero on merkittävä: 3 skenaariota 94 sekunnissa vs. qwen3:14b 152 sekunnissa.
|
||||
|
||||
**48 GB** — kaksi mallia rinnakkain: qwen3-coder:30b raskaaseen koodingenerointiin, qwen3:14b kevyempiin tehtäviin (korjaukset, speksit, refaktorointi). Yhteensä ~33 GB, 15 GB puskuria.
|
||||
|
||||
### Hylätyt vaihtoehdot
|
||||
|
||||
| Malli | Koko | Pisteet | Miksi ei |
|
||||
|-------|------|---------|----------|
|
||||
| qwen2.5-coder:3b | 1.9 GB | 33p | qwen3:4b parempi samoilla pisteillä |
|
||||
| qwen2.5-coder:7b | 4.7 GB | 26p | qwen3:8b päihittää selvästi (95p vs 26p) |
|
||||
| qwen2.5-coder:32b | 19.9 GB | 79p* | qwen3-coder:30b parempi ja nopeampi |
|
||||
| qwen3.5:35b | 24 GB | 40–60p | Epätasainen, 0/1 collection erroreja |
|
||||
| qwen3.5:27b | 17.4 GB | 54p | qwen3:14b parempi ja pienempi |
|
||||
| gemma4:31b | 19.9 GB | 80p | Hyvä laatu mutta 4× hitaampi (28 tok/s) |
|
||||
| gemma4:e4b | 9.6 GB | 58p | qwen3:8b parempi ja pienempi |
|
||||
| codestral:22b | 12.6 GB | 88p | Mistral-perheen paras, varamalli |
|
||||
| devstral:24b | 14.3 GB | 44p | Agentti-malli, huono koodigeneroinnissa |
|
||||
| mistral-small3.1:24b | 15.5 GB | 30p | Heikko, test_main.py puuttui usein |
|
||||
| qwen3-coder-next | 51 GB | 69p | Pettymys suhteessa kokoon |
|
||||
|
||||
*epätasainen: todo 100p, users 0p, blog 63p
|
||||
|
||||
### Thinking-moodi
|
||||
|
||||
Testattu qwen3:14b ja qwen3:8b thinking-moodilla (`--think`). Tulos: **thinking huonontaa tuloksia**.
|
||||
|
||||
| Malli | No-think | Think | Ero |
|
||||
|-------|----------|-------|-----|
|
||||
| qwen3:14b | ★★★★★ 100p | ★★★☆☆ 51p | −49p |
|
||||
| qwen3:8b | ★★★★★ 95p | ★★★★☆ 77p | −18p |
|
||||
|
||||
Ajattelu tuottaa 2–3× enemmän tokeneita mutta laatu laskee. Suositus: **käytä aina `think: false`** koodingenerointiin.
|
||||
|
||||
### Yllätykset
|
||||
|
||||
1. **Yleismallit voittivat kooderimallit.** qwen3:8b (5 GB yleismalli, 95p) päihittää qwen2.5-coder:32b (20 GB kooderimalli, 79p).
|
||||
2. **qwen3:14b on paras.** 9.3 GB malli sai 100p — parempi kuin mikään isompi malli.
|
||||
3. **Koko ei ratkaise.** qwen3-coder-next (51 GB) sai vain 69p. gemma4:31b (20 GB) sai 80p. qwen3:14b (9.3 GB) sai 100p.
|
||||
|
||||
Reference in New Issue
Block a user