Bijgewerkt maart 2026 $0 API-kosten

Dify GPU Hosting Gids 2026 — Lokale LLM's uitvoeren met Dify

Host Dify op een GPU-server en verbind het met Ollama of LocalAI om Llama 3, Mistral en andere open-source modellen lokaal uit te voeren — met nul API-kosten per token en volledige gegevensprivacy.

Waarom Dify op een GPU-server draaien?

Dify verbinden met een lokaal gehoste LLM via Ollama of LocalAI elimineert de afhankelijkheid van cloud-AI-providers volledig. Dit zijn de voordelen:

💰

Geen API-kosten

Betaal alleen voor de GPU-server — niet per token. Grootschalig gebruik wordt aanzienlijk goedkoper.

🔒

Gegevensprivacy

Prompts en antwoorden verlaten uw infrastructuur niet — essentieel voor gereguleerde sectoren.

🧩

Aangepaste modellen

Voer fijn afgestemde of domeinspecifieke modellen uit die via geen enkele publieke API beschikbaar zijn.

🚀

Geen snelheidslimieten

Stuur zoveel verzoeken als uw GPU aankan — geen throttling, geen quotafouten.

GPU-cloudproviders vergeleken

Prijzen zijn de geschatte on-demand tarieven van begin 2026. Gereserveerde en spot-instanties zijn doorgaans goedkoper.

Provider GPU VRAM Prijs/uur Ideaal voor
Lambda Labs A10 24 GB $0,75/uur Ontwikkeling
Vast.ai RTX 4090 24 GB ~$0,35/uur Budget
RunPod A100 80 GB $1,99/uur Productie
CoreWeave H100 80 GB $2,50/uur Enterprise
Hetzner GPU A100 80 GB 2,49 EUR/uur EU-compliance
1

CUDA en NVIDIA Container Toolkit installeren

Voordat u Dify of Ollama installeert, hebt u de NVIDIA CUDA-stuurprogramma's en de Container Toolkit nodig zodat Docker-containers de GPU kunnen gebruiken.

CUDA Toolkit 12.3 installeren

# Controleer of het NVIDIA-stuurprogramma al is geïnstalleerd
nvidia-smi

# Zo niet, voeg de NVIDIA-repository toe
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# Installeer de CUDA-toolkit (inclusief stuurprogramma's)
sudo apt install -y cuda-toolkit-12-3

# Herstart vereist na installatie van stuurprogramma
sudo reboot

GPU verifiëren en Docker configureren

# Controleer na herstart of GPU is gedetecteerd
nvidia-smi

# Installeer de NVIDIA Container Toolkit (voor GPU-toegang via Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

Na het uitvoeren van nvidia-smi zou u uw GPU met de stuurprogrammaversie en VRAM moeten zien. Als Docker nu --gpus all kan gebruiken, bent u klaar voor de volgende stap.

2

Ollama installeren en LLM-modellen downloaden

Ollama is de eenvoudigste manier om open-source LLM's op uw GPU te draaien. Het detecteert CUDA automatisch en gebruikt de GPU voor inferentie.

Ollama installeren en modellen downloaden

# Installeer Ollama (één-regel installatie)
curl -fsSL https://ollama.com/install.sh | sh

# Controleer of Ollama actief is
ollama list

# Download LLM-modellen
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b

# Test een model
ollama run llama3.1:8b "Hallo, wat kun jij doen?"

Ollama binden aan alle netwerkinterfaces

Standaard luistert Ollama alleen op localhost. Om het bereikbaar te maken vanuit Dify's Docker-containers, moet u het binden aan 0.0.0.0:

# Bewerk de Ollama systemd-service om te binden aan alle interfaces
sudo systemctl edit ollama --force --full

# Zoek de [Service]-sectie en voeg toe:
# Environment="OLLAMA_HOST=0.0.0.0:11434"

# Wijzigingen toepassen
sudo systemctl daemon-reload
sudo systemctl restart ollama

docker-compose.override.yaml configureren

Maak of bewerk docker-compose.override.yaml in uw Dify-map zodat containers host.docker.internal naar de hostmachine kunnen oplossen op Linux:

services:
  api:
    extra_hosts:
      - "host.docker.internal:host-gateway"
  worker:
    extra_hosts:
      - "host.docker.internal:host-gateway"

Let op: Op macOS en Windows wordt host.docker.internal automatisch opgelost. Op Linux is de bovenstaande extra_hosts-vermelding vereist.

3

Dify verbinden met Ollama

Met Ollama actief en bereikbaar, voegt u het toe als modelleverancier in Dify:

  1. Open uw Dify-instantie en klik op uw avatar rechtsboven.
  2. Ga naar Instellingen en vervolgens Modelleverancier.
  3. Scroll naar beneden om Ollama te vinden en klik op Model toevoegen.
  4. Stel de Basis-URL in op http://host.docker.internal:11434.
  5. Voer de Modelnaam precies in zoals weergegeven door ollama list (bijv. llama3.1:8b).
  6. Klik op Opslaan — Dify test de verbinding. Een groen vinkje bevestigt succes.
  7. Het model is nu beschikbaar in al uw Dify-apps en workflows.

Tip: Herhaal stap 5 voor elk gedownload model. U kunt zoveel Ollama-modellen toevoegen als u wilt — elk verschijnt als een apart selecteerbaar model in Dify.

4

LocalAI — Een OpenAI-compatibel alternatief

Als u de voorkeur geeft aan een OpenAI-compatibel API-oppervlak, is LocalAI een uitstekend alternatief voor Ollama. Het biedt eindpunten zoals /v1/chat/completions, zodat u de bestaande OpenAI-integratie van Dify kunt gebruiken zonder extra configuratie.

LocalAI uitvoeren met Docker (GPU)

# Voer LocalAI uit met Docker (GPU ingeschakeld)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12

Configureer Dify na het opstarten met Modelleverancier: OpenAI-API-compatible, stel de basis-URL in op http://host.docker.internal:8080/v1 en gebruik de naam van een model dat in LocalAI is geladen. Voor lokale implementaties is geen API-sleutel vereist.

Modelaanbevelingen per gebruiksscenario

Kies uw model op basis van beschikbaar VRAM en de kwaliteit-snelheidsafweging die uw applicatie nodig heeft.

Model Vereist VRAM Snelheid Ideaal voor
llama3.1:8b ~6 GB Snel Algemeen gebruik, chat
mistral:7b ~5 GB Zeer snel Snelheidskritieke apps
codellama:13b ~10 GB Gemiddeld Codegeneratie
llama3.1:70b ~40 GB Langzaam Hoogwaardige uitvoer
mixtral:8x7b ~26 GB Gemiddeld Balans kwaliteit/snelheid

VRAM snelreferentie

~6 GB
7B-modellen
bijv. Llama 3.1 8B, Mistral 7B
~10 GB
13B-modellen
bijv. CodeLlama 13B
~20 GB
34B-modellen
bijv. CodeLlama 34B
~40 GB
70B-modellen
bijv. Llama 3.1 70B

Dit zijn geschatte vereisten voor full-precision (fp16) inferentie. Gekwantiseerde modellen (Q4/Q5) kunnen VRAM-gebruik met 30–50% verminderen, waardoor grotere modellen op kleinere GPU's kunnen draaien.

Gerelateerde handleidingen

Dify zelf hosten gids
Volledig overzicht voor het zelf hosten van Dify op uw eigen server of VPS.
Dify Docker-installatie
Stapsgewijze Docker Compose-configuratie voor het uitvoeren van Dify in productie.
Beste Dify-hostingproviders
Vergelijking van beheerde en cloud-hostingopties voor Dify in 2026.