SUPERAGENTS.md: benchmark-arkkitehtuuri kehityksen todentamiseen

Moniulotteinen pisteytys (0-100), portaittaiset vaikeustasot (CRUD → relaatiot → liiketoimintalogiikka → kehittyneet patternit), historiavertailu ja regressiotunnistus.
2026-04-14 07:16:37 +03:00
parent 7221f5e920
commit 8f154a578c
1 changed files with 149 additions and 0 deletions
--- a/network-poc/SUPERAGENTS.md
+++ b/network-poc/SUPERAGENTS.md
@@ -128,6 +128,155 @@ Automaattinen promptien optimointi geneettisellä algoritmilla.
 Yhdistetään kaikki tasot: järjestelmä **valitsee parhaan mallin tehtävään** (taso 3), **käyttää opittuja prompteja** (taso 2), **korjaa virheensä itse** (taso 4), ja **parantaa promptejaan joka kierroksella** (taso 5).
 ## Benchmark — kehityksen todentaminen
 Ilman kunnollista pisteytystä ja historiaa ei voi todentaa kehitystä. Benchmark-järjestelmä tarvitsee kolme kerrosta: **metriikat**, **vaikeustasot** ja **historiavertailu**.
 ### Metriikat
 Yksittäinen "PASS/FAIL" ei riitä. Jokainen ajo pisteytetään moniulotteisesti:
 | Metriikka | Mitä mittaa | Pisteytys |
 |-----------|------------|-----------|
 | **Parsittavuus** | Tuottiko malli kaikki 5 tiedostoa oikeilla markereilla? | 0–5 (tiedostoa) |
 | **Syntaksi** | Parsitaanko koodi virheettä? | 0–4 (.py-tiedostot) |
 | **Importit** | Ovatko kaikki importit resolvable? | 0/1 per tiedosto |
 | **Testit** | Pytest pass rate | passed / total (0.0–1.0) |
 | **Korjauskierrokset** | Montako korjausta tarvittiin? | 0 = paras, >2 = huono |
 | **Token-tehokkuus** | Tokenia per läpäisty testi | pienempi = parempi |
 | **Nopeus** | tok/s ja kokonaisaika | isompi tok/s = parempi |
 | **Varoitukset** | Deprecation warnings, style issues | 0 = paras |
 **Kokonaispistemäärä** (0–100):
 ```
 score = (
    parsittavuus/5 * 15 +       # 15p: tiedostot syntyvät
    syntaksi/4 * 15 +            # 15p: koodi parsitaan
    testit * 40 +                # 40p: testit menevät läpi (tärkein)
    (1 - korjaukset/max) * 10 +  # 10p: ei tarvitse korjauksia
    tehokkuus_norm * 10 +        # 10p: vähän tokeneita per testi
    nopeus_norm * 10             # 10p: nopea generointi
 )
 ```
 Testien paino on 40% koska toimiva koodi on tärkein. Parsittavuus ja syntaksi ovat "pääsyvaatimuksia" — ilman niitä testejä ei voi edes ajaa.
 ### Vaikeustasot
 Kolme nykyistä skenaariota (todo, users, blog) ovat kaikki samaa tasoa. Kehityksen mittaamiseen tarvitaan portaikko:
 **Taso 1 — Perus-CRUD** (nykyiset)
 - Yksi entiteetti, ei relaatioita
 - Esim. todo, users
 - Odotettu tulos: 100% kaikilla kelvollisilla malleilla
 **Taso 2 — Relaatiot** (nykyinen blog)
 - 2–3 entiteettiä, foreign key -viittaukset
 - Esim. blog (author → post), kirjasto (author → book)
 - Haaste: relaatioiden oikea käsittely, cascade
 **Taso 3 — Liiketoimintalogiikka**
 - Validointisääntöjä, tilasiirtymiä, laskentaa
 - Esim. verkkokauppa (tuote → tilaus → tilausrivi, varastosaldo, hintalaskenta)
 - Haaste: pelkkä CRUD ei riitä, tarvitaan custom-endpointeja
 **Taso 4 — Kehittyneet patternit**
 - Autentikointi, middleware, taustatehtävät, WebSocket
 - Esim. chat-sovellus (käyttäjä → huone → viesti, reaaliaikainen, online-status)
 - Haaste: arkkitehtuuriosaamisesta, ei vain tietomallista
 **Skenaariot per taso:**
 ```python
 SCENARIOS = [
    # Taso 1 — Perus-CRUD
    {"id": "todo",      "level": 1, "prompt": "Todo-sovellus: tehtävien hallinta, deadline, prioriteetti ja status"},
    {"id": "users",     "level": 1, "prompt": "REST API käyttäjähallinnalle SQLite-tietokannalla"},
    {"id": "notes",     "level": 1, "prompt": "Muistiinpanosovellus: otsikko, sisältö, tagit, luontipäivä"},
    # Taso 2 — Relaatiot
    {"id": "blog",      "level": 2, "prompt": "Blogi-API: kirjoittajat ja artikkelit, julkaisupäivämäärä ja status"},
    {"id": "library",   "level": 2, "prompt": "Kirjasto-API: kirjailijat, kirjat ja lainaukset, palautuspäivä ja sakko"},
    {"id": "school",    "level": 2, "prompt": "Kouluhallinto: opettajat, kurssit ja ilmoittautumiset, arvosanat"},
    # Taso 3 — Liiketoimintalogiikka
    {"id": "shop",      "level": 3, "prompt": "Verkkokauppa: tuotteet, tilaukset ja tilausrivit, varastosaldo vähenee tilauksessa, kokonaishinta lasketaan automaattisesti"},
    {"id": "booking",   "level": 3, "prompt": "Varausjärjestelmä: resurssit ja varaukset, päällekkäiset varaukset estetään, peruutus vapauttaa ajan"},
    {"id": "project",   "level": 3, "prompt": "Projektinhallinta: projektit, tehtävät ja kommentit, tehtävän status-siirtymät (todo→doing→done), projektin edistymisprosentti lasketaan tehtävistä"},
 ]
 ```
 ### Historiavertailu
 Tulokset tallennetaan aikasarjana jotta kehitys näkyy:
 ```
 benchmark-history/
 ├── 2026-04-14_1200_v1.json    ← ensimmäinen ajo
 ├── 2026-04-14_1500_v2.json    ← prompti paranneltu
 ├── 2026-04-15_0900_v3.json    ← few-shot lisätty
 └── latest.json                ← symlink uusimpaan
 ```
 **Jokainen tallennus sisältää:**
 ```json
 {
    "version": "v3",
    "timestamp": "2026-04-15T09:00:00Z",
    "prompts_hash": "a3f2c1...",
    "results": [
        {
            "model": "qwen3-coder-next",
            "scenario": "todo",
            "level": 1,
            "score": 85,
            "metrics": {
                "parsability": 5,
                "syntax": 4,
                "tests_passed": 6,
                "tests_total": 6,
                "fix_rounds": 0,
                "tokens": 2100,
                "tok_per_sec": 72,
                "warnings": 0
            }
        }
    ],
    "summary": {
        "avg_score": 72,
        "pass_rate": 0.67,
        "by_level": {"1": 95, "2": 72, "3": 48}
    }
 }
 ```
 **Kehitysraportti** (automaattinen vertailu edelliseen):
 ```
 ╔═══════════════════════════════════════╗
 ║  Kehitysraportti v2 → v3             ║
 ╠═══════════════════════════════════════╣
 ║  Kokonaispistemäärä:  62 → 72 (+10)  ║
 ║  Pass rate:          44% → 67% (+23) ║
 ║  Taso 1:              80 → 95 (+15)  ║
 ║  Taso 2:              60 → 72 (+12)  ║
 ║  Taso 3:              45 → 48 (+3)   ║
 ║                                       ║
 ║  Parantunut:  pyproject-muoto ✓      ║
 ║  Parantunut:  import-ongelmat ✓      ║
 ║  Ennallaan:   liiketoimintalogiikka  ║
 ╚═══════════════════════════════════════╝
 ```
 ### Regressiotunnistus
 Jos promptimuutos parantaa yhtä skenaariota mutta rikkoo toisen, se pitää havaita:
 - Jokaisella ajolla verrataan **kaikkia skenaarioita** edelliseen
 - Jos mikä tahansa skenaario laskee >10 pistettä → **varoitus**
 - Jos taso 1 (perus-CRUD) laskee → **esto** (perustason pitää aina toimia)
 ## Toteutusjärjestys
 ```