From 11bd802be587e21ee5c06514fe70dcb144704d0c Mon Sep 17 00:00:00 2001 From: jaakko Date: Thu, 2 Apr 2026 07:27:37 +0300 Subject: [PATCH] tooltipit eri toimille --- network-poc/static/index.html | 44 +++++++++++++++++++++++++++++++++++ 1 file changed, 44 insertions(+) diff --git a/network-poc/static/index.html b/network-poc/static/index.html index 997bfd9..fa13938 100644 --- a/network-poc/static/index.html +++ b/network-poc/static/index.html @@ -251,6 +251,18 @@ } .task-ready { background: #23392050; color: var(--success-color); border: 1px solid #23392080; } .task-soon { background: #d2992215; color: #d29922; border: 1px solid #d2992240; } + .task-info { + display: none; + margin-top: 10px; + padding-top: 10px; + border-top: 1px solid var(--border-color); + font-size: 12px; + line-height: 1.6; + color: #8b949e; + } + .task-info strong { color: var(--text-color); } + .task-info em { color: var(--accent-color); font-style: normal; } + .task-option.selected .task-info { display: block; } .download-bar { background: #0d1117; @@ -328,6 +340,14 @@
EN/FI-kieliparien tokenisointitehokkuuden vertailu Qwen2.5-tokenizeria käyttäen
Lataus: ~7 MB (tokenizer)
Valmis +
+ Miten tokenisaatio toimii? + Kielimallit eivät lue tekstiä kirjain kerrallaan. Sen sijaan teksti pilkotaan tokeneiksi — sanoja, tavuja tai sananosia, joista jokaisella on oma numerotunnisteensa mallin sanastossa. +

+ Tokenizer on BPE (Byte Pair Encoding) -algoritmi: se yhdistää yleisimpiä merkkipareja isommiksi yksiköiksi. Englannissa "the" on yksi token, mutta suomessa "kirjoittamisen" voi olla 3-4 tokenia, koska tokenizer on koulutettu pääosin englanninkielisellä datalla. +

+ Miksi tällä on väliä? Enemmän tokeneita = kalliimpaa ja hitaampaa. Sama lause suomeksi voi maksaa 50-100% enemmän tokeneita kuin englanniksi. +