256K konteksti varaa ~15 GB KV-cachea vaikka benchmark käyttää ~3K. 16K riittää hyvin ja säästää merkittävästi VRAM:ia.
23 KiB
23 KiB
256K konteksti varaa ~15 GB KV-cachea vaikka benchmark käyttää ~3K. 16K riittää hyvin ja säästää merkittävästi VRAM:ia.