diff --git a/network-poc/static/index.html b/network-poc/static/index.html
index 997bfd9..fa13938 100644
--- a/network-poc/static/index.html
+++ b/network-poc/static/index.html
@@ -251,6 +251,18 @@
}
.task-ready { background: #23392050; color: var(--success-color); border: 1px solid #23392080; }
.task-soon { background: #d2992215; color: #d29922; border: 1px solid #d2992240; }
+ .task-info {
+ display: none;
+ margin-top: 10px;
+ padding-top: 10px;
+ border-top: 1px solid var(--border-color);
+ font-size: 12px;
+ line-height: 1.6;
+ color: #8b949e;
+ }
+ .task-info strong { color: var(--text-color); }
+ .task-info em { color: var(--accent-color); font-style: normal; }
+ .task-option.selected .task-info { display: block; }
.download-bar {
background: #0d1117;
@@ -328,6 +340,14 @@
EN/FI-kieliparien tokenisointitehokkuuden vertailu Qwen2.5-tokenizeria käyttäen
Lataus: ~7 MB (tokenizer)
Valmis
+
+ Miten tokenisaatio toimii?
+ Kielimallit eivät lue tekstiä kirjain kerrallaan. Sen sijaan teksti pilkotaan tokeneiksi — sanoja, tavuja tai sananosia, joista jokaisella on oma numerotunnisteensa mallin sanastossa.
+
+ Tokenizer on BPE (Byte Pair Encoding) -algoritmi: se yhdistää yleisimpiä merkkipareja isommiksi yksiköiksi. Englannissa "the" on yksi token, mutta suomessa "kirjoittamisen" voi olla 3-4 tokenia, koska tokenizer on koulutettu pääosin englanninkielisellä datalla.
+
+ Miksi tällä on väliä? Enemmän tokeneita = kalliimpaa ja hitaampaa. Sama lause suomeksi voi maksaa 50-100% enemmän tokeneita kuin englanniksi.
+
@@ -335,6 +355,14 @@
Kevyt kielimalli tekstigeneraatioon — sopii kaikille laitteille (CPU)
Lataus: ~269 MB (safetensors) + 2 MB (tokenizer)
Valmis
+
+ SmolLM 135M (HuggingFace)
+ Llama-arkkitehtuuri: 30 kerrosta, 576-dim embeddings, 9 attention-headiä.
+
+ 135 miljoonaa parametria — noin 1000x pienempi kuin GPT-4. Silti kykenee yksinkertaiseen tekstigeneraatioon. Tämä malli mahtuu mihin tahansa laitteeseen ja pyörii kokonaan selaimessasi WebAssemblylla.
+
+ Miten inferenssi toimii? Malli ennustaa aina seuraavan tokenin edellisten perusteella (autoregressive generation ). Jokainen token vaatii yhden "forward pass" -laskennan kaikkien kerrosten läpi. 135M-mallilla tämä kestää ~0.8s selaimessa ja ~90ms natiivisti.
+
@@ -342,6 +370,14 @@
Tehokkaampi kielimalli — vaatii vähintään 2 GB muistia (CPU)
Lataus: ~990 MB (safetensors) + 7 MB (tokenizer)
Valmis
+
+ Qwen2.5 0.5B (Alibaba Cloud)
+ 24 kerrosta, 896-dim, 14 attention-headiä, 2 KV-headiä (GQA).
+
+ 490 miljoonaa parametria ja 151 936 tokenin sanasto — 3x suurempi kuin SmolLM ja huomattavasti koherentimpi. Grouped Query Attention (GQA) vähentää muistinkäyttöä jakamalla key/value-headit 14:n query-headin kesken.
+
+ Miksi tämä on hitaampi? Jokaisessa kerroksessa lasketaan attention-matriisi (Q*K^T), joka skaalautuu O(n^2) sekvenssipituuden mukaan. 24 kerrosta x 14 headiä = 336 attention-laskentaa per token. Selaimessa CPU/Wasm: ~2.5s/token, natiivisti: ~90ms/token.
+
@@ -349,6 +385,14 @@
Iso kielimalli — vaatii native-noden (Docker + GPU)
~7.6 GB — liian suuri selaimelle
Vain native
+
+ Phi-3 Mini 3.8B (Microsoft)
+ 32 kerrosta, 3072-dim, 32 attention-headiä.
+
+ 3.8 miljardia parametria — luokassaan yksi tehokkaimmista. Microsoftin "small language model" -tutkimuksen tulos: laadukas koulutusdata kompensoi pientä mallikokoa. Pärjää monissa tehtävissä 7B-13B mallien tasolla.
+
+ Miksi ei pyöri selaimessa? F32-painot vaativat ~15 GB muistia. Selainten Wasm-muistiraja on tyypillisesti 4 GB. GPU-kiihdytyksellä (CUDA/ROCm) malli mahtuu 24 GB VRAM-näytönohjaimeen ja generoi ~50-100 tok/s.
+