Ollama-integraatio: GPU-inferenssi NVIDIA/AMD/Apple, ei Candle-rajoitteita

- docker-compose: Ollama-container GPU:lla + persistent volume malleille - native-node: Candle poistettu, kutsuu Ollaman HTTP API:a (async) - Dockerfile: yksinkertaistettu, ei CUDA SDK:ta (Ollama hoitaa GPU:n) - Tukee kaikkia malleja: qwen2.5-coder:1.5b/3b/7b/14b/32b - OLLAMA_MODEL ympäristömuuttujalla vaihdetaan malli - kpn models näyttää Ollama-mallit nopeustiedoilla Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
2026-04-07 06:22:11 +03:00
parent d8443792a3
commit 3eb0c4d939
6 changed files with 126 additions and 290 deletions
--- a/network-poc/docker-compose.yml
+++ b/network-poc/docker-compose.yml
@@ -11,19 +11,14 @@ services:
    # Käännetään aina käynnistyksen yhteydessä varmuuden vuoksi Wasm uusimmista koodeista, ja päälle pyöräytetään Hub!
    command: bash -c "cd node && wasm-pack build --release --target web --out-dir ../static/pkg && cd ../hub && cargo run"

-  # Valinnainen natiivi-solmu — kerää oikeat laitteistotiedot (nvidia-smi-taso)
-  native-node:
-    build:
-      context: .
-      dockerfile: Dockerfile.native-node
-    container_name: kipina_native_node
-    runtime: nvidia
-    environment:
-      - HUB_URL=ws://agentic-poc:3000/ws
-      - ALLOCATED_GB=4
-      - NVIDIA_VISIBLE_DEVICES=all
-    depends_on:
-      - agentic-poc
+  # Ollama — LLM-inferenssi GPU:lla (NVIDIA/AMD/Apple)
+  ollama:
+    image: ollama/ollama:latest
+    container_name: kipina_ollama
+    ports:
+      - "11434:11434"
+    volumes:
+      - ollama-models:/root/.ollama
    deploy:
      resources:
        reservations:
@@ -33,3 +28,23 @@ services:
              capabilities: [gpu]
    profiles:
      - native
+
+  # Natiivisolmu — yhdistää hubiin ja käyttää Ollamaa inferenssiin
+  native-node:
+    build:
+      context: .
+      dockerfile: Dockerfile.native-node
+    container_name: kipina_native_node
+    environment:
+      - HUB_URL=ws://agentic-poc:3000/ws
+      - OLLAMA_URL=http://ollama:11434
+      - OLLAMA_MODEL=qwen2.5-coder:7b
+      - ALLOCATED_GB=4
+    depends_on:
+      - agentic-poc
+      - ollama
+    profiles:
+      - native
+
+volumes:
+  ollama-models: