Dify GPU Hosting Gids 2026 — Lokale LLM's uitvoeren met Dify
Host Dify op een GPU-server en verbind het met Ollama of LocalAI om Llama 3, Mistral en andere open-source modellen lokaal uit te voeren — met nul API-kosten per token en volledige gegevensprivacy.
Waarom Dify op een GPU-server draaien?
Dify verbinden met een lokaal gehoste LLM via Ollama of LocalAI elimineert de afhankelijkheid van cloud-AI-providers volledig. Dit zijn de voordelen:
Geen API-kosten
Betaal alleen voor de GPU-server — niet per token. Grootschalig gebruik wordt aanzienlijk goedkoper.
Gegevensprivacy
Prompts en antwoorden verlaten uw infrastructuur niet — essentieel voor gereguleerde sectoren.
Aangepaste modellen
Voer fijn afgestemde of domeinspecifieke modellen uit die via geen enkele publieke API beschikbaar zijn.
Geen snelheidslimieten
Stuur zoveel verzoeken als uw GPU aankan — geen throttling, geen quotafouten.
GPU-cloudproviders vergeleken
Prijzen zijn de geschatte on-demand tarieven van begin 2026. Gereserveerde en spot-instanties zijn doorgaans goedkoper.
| Provider | GPU | VRAM | Prijs/uur | Ideaal voor |
|---|---|---|---|---|
| Lambda Labs | A10 | 24 GB | $0,75/uur | Ontwikkeling |
| Vast.ai | RTX 4090 | 24 GB | ~$0,35/uur | Budget |
| RunPod | A100 | 80 GB | $1,99/uur | Productie |
| CoreWeave | H100 | 80 GB | $2,50/uur | Enterprise |
| Hetzner GPU | A100 | 80 GB | 2,49 EUR/uur | EU-compliance |
CUDA en NVIDIA Container Toolkit installeren
Voordat u Dify of Ollama installeert, hebt u de NVIDIA CUDA-stuurprogramma's en de Container Toolkit nodig zodat Docker-containers de GPU kunnen gebruiken.
CUDA Toolkit 12.3 installeren
# Controleer of het NVIDIA-stuurprogramma al is geïnstalleerd
nvidia-smi
# Zo niet, voeg de NVIDIA-repository toe
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
# Installeer de CUDA-toolkit (inclusief stuurprogramma's)
sudo apt install -y cuda-toolkit-12-3
# Herstart vereist na installatie van stuurprogramma
sudo reboot GPU verifiëren en Docker configureren
# Controleer na herstart of GPU is gedetecteerd
nvidia-smi
# Installeer de NVIDIA Container Toolkit (voor GPU-toegang via Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker Na het uitvoeren van nvidia-smi zou u uw GPU met de stuurprogrammaversie en VRAM moeten zien. Als Docker nu --gpus all kan gebruiken, bent u klaar voor de volgende stap.
Ollama installeren en LLM-modellen downloaden
Ollama is de eenvoudigste manier om open-source LLM's op uw GPU te draaien. Het detecteert CUDA automatisch en gebruikt de GPU voor inferentie.
Ollama installeren en modellen downloaden
# Installeer Ollama (één-regel installatie)
curl -fsSL https://ollama.com/install.sh | sh
# Controleer of Ollama actief is
ollama list
# Download LLM-modellen
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b
# Test een model
ollama run llama3.1:8b "Hallo, wat kun jij doen?" Ollama binden aan alle netwerkinterfaces
Standaard luistert Ollama alleen op localhost. Om het bereikbaar te maken vanuit Dify's Docker-containers, moet u het binden aan 0.0.0.0:
# Bewerk de Ollama systemd-service om te binden aan alle interfaces
sudo systemctl edit ollama --force --full
# Zoek de [Service]-sectie en voeg toe:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Wijzigingen toepassen
sudo systemctl daemon-reload
sudo systemctl restart ollama docker-compose.override.yaml configureren
Maak of bewerk docker-compose.override.yaml in uw Dify-map zodat containers host.docker.internal naar de hostmachine kunnen oplossen op Linux:
services:
api:
extra_hosts:
- "host.docker.internal:host-gateway"
worker:
extra_hosts:
- "host.docker.internal:host-gateway" Let op: Op macOS en Windows wordt host.docker.internal automatisch opgelost. Op Linux is de bovenstaande extra_hosts-vermelding vereist.
Dify verbinden met Ollama
Met Ollama actief en bereikbaar, voegt u het toe als modelleverancier in Dify:
- Open uw Dify-instantie en klik op uw avatar rechtsboven.
- Ga naar Instellingen en vervolgens Modelleverancier.
- Scroll naar beneden om Ollama te vinden en klik op Model toevoegen.
- Stel de Basis-URL in op
http://host.docker.internal:11434. - Voer de Modelnaam precies in zoals weergegeven door
ollama list(bijv.llama3.1:8b). - Klik op Opslaan — Dify test de verbinding. Een groen vinkje bevestigt succes.
- Het model is nu beschikbaar in al uw Dify-apps en workflows.
Tip: Herhaal stap 5 voor elk gedownload model. U kunt zoveel Ollama-modellen toevoegen als u wilt — elk verschijnt als een apart selecteerbaar model in Dify.
LocalAI — Een OpenAI-compatibel alternatief
Als u de voorkeur geeft aan een OpenAI-compatibel API-oppervlak, is LocalAI een uitstekend alternatief voor Ollama. Het biedt eindpunten zoals /v1/chat/completions, zodat u de bestaande OpenAI-integratie van Dify kunt gebruiken zonder extra configuratie.
LocalAI uitvoeren met Docker (GPU)
# Voer LocalAI uit met Docker (GPU ingeschakeld)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12 Configureer Dify na het opstarten met Modelleverancier: OpenAI-API-compatible, stel de basis-URL in op http://host.docker.internal:8080/v1 en gebruik de naam van een model dat in LocalAI is geladen. Voor lokale implementaties is geen API-sleutel vereist.
Modelaanbevelingen per gebruiksscenario
Kies uw model op basis van beschikbaar VRAM en de kwaliteit-snelheidsafweging die uw applicatie nodig heeft.
| Model | Vereist VRAM | Snelheid | Ideaal voor |
|---|---|---|---|
llama3.1:8b | ~6 GB | Snel | Algemeen gebruik, chat |
mistral:7b | ~5 GB | Zeer snel | Snelheidskritieke apps |
codellama:13b | ~10 GB | Gemiddeld | Codegeneratie |
llama3.1:70b | ~40 GB | Langzaam | Hoogwaardige uitvoer |
mixtral:8x7b | ~26 GB | Gemiddeld | Balans kwaliteit/snelheid |
VRAM snelreferentie
Dit zijn geschatte vereisten voor full-precision (fp16) inferentie. Gekwantiseerde modellen (Q4/Q5) kunnen VRAM-gebruik met 30–50% verminderen, waardoor grotere modellen op kleinere GPU's kunnen draaien.