Bijgewerkt maart 2026 $0 API-kosten

Dify GPU Hosting Gids 2026 — Lokale LLM's uitvoeren met Dify

Host Dify op een GPU-server en verbind het met Ollama of LocalAI om Llama 3, Mistral en andere open-source modellen lokaal uit te voeren — met nul API-kosten per token en volledige gegevensprivacy.

Waarom Dify op een GPU-server draaien?

Dify verbinden met een lokaal gehoste LLM via Ollama of LocalAI elimineert de afhankelijkheid van cloud-AI-providers volledig. Dit zijn de voordelen:

💰

Geen API-kosten

Betaal alleen voor de GPU-server — niet per token. Grootschalig gebruik wordt aanzienlijk goedkoper.

🔒

Gegevensprivacy

Prompts en antwoorden verlaten uw infrastructuur niet — essentieel voor gereguleerde sectoren.

🧩

Aangepaste modellen

Voer fijn afgestemde of domeinspecifieke modellen uit die via geen enkele publieke API beschikbaar zijn.

🚀

Geen snelheidslimieten

Stuur zoveel verzoeken als uw GPU aankan — geen throttling, geen quotafouten.

GPU-cloudproviders vergeleken

Prijzen zijn de geschatte on-demand tarieven van begin 2026. Gereserveerde en spot-instanties zijn doorgaans goedkoper.

Provider	GPU	VRAM	Prijs/uur	Ideaal voor
Lambda Labs	A10	24 GB	$0,75/uur	Ontwikkeling
Vast.ai	RTX 4090	24 GB	~$0,35/uur	Budget
RunPod	A100	80 GB	$1,99/uur	Productie
CoreWeave	H100	80 GB	$2,50/uur	Enterprise
Hetzner GPU	A100	80 GB	2,49 EUR/uur	EU-compliance

CUDA en NVIDIA Container Toolkit installeren

Voordat u Dify of Ollama installeert, hebt u de NVIDIA CUDA-stuurprogramma's en de Container Toolkit nodig zodat Docker-containers de GPU kunnen gebruiken.

CUDA Toolkit 12.3 installeren

# Controleer of het NVIDIA-stuurprogramma al is geïnstalleerd
nvidia-smi

# Zo niet, voeg de NVIDIA-repository toe
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# Installeer de CUDA-toolkit (inclusief stuurprogramma's)
sudo apt install -y cuda-toolkit-12-3

# Herstart vereist na installatie van stuurprogramma
sudo reboot

GPU verifiëren en Docker configureren

# Controleer na herstart of GPU is gedetecteerd
nvidia-smi

# Installeer de NVIDIA Container Toolkit (voor GPU-toegang via Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

Na het uitvoeren van nvidia-smi zou u uw GPU met de stuurprogrammaversie en VRAM moeten zien. Als Docker nu --gpus all kan gebruiken, bent u klaar voor de volgende stap.

Ollama installeren en LLM-modellen downloaden

Ollama is de eenvoudigste manier om open-source LLM's op uw GPU te draaien. Het detecteert CUDA automatisch en gebruikt de GPU voor inferentie.

Ollama installeren en modellen downloaden

# Installeer Ollama (één-regel installatie)
curl -fsSL https://ollama.com/install.sh | sh

# Controleer of Ollama actief is
ollama list

# Download LLM-modellen
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b

# Test een model
ollama run llama3.1:8b "Hallo, wat kun jij doen?"

Ollama binden aan alle netwerkinterfaces

Standaard luistert Ollama alleen op localhost. Om het bereikbaar te maken vanuit Dify's Docker-containers, moet u het binden aan 0.0.0.0:

# Bewerk de Ollama systemd-service om te binden aan alle interfaces
sudo systemctl edit ollama --force --full

# Zoek de [Service]-sectie en voeg toe:
# Environment="OLLAMA_HOST=0.0.0.0:11434"

# Wijzigingen toepassen
sudo systemctl daemon-reload
sudo systemctl restart ollama

docker-compose.override.yaml configureren

Maak of bewerk docker-compose.override.yaml in uw Dify-map zodat containers host.docker.internal naar de hostmachine kunnen oplossen op Linux:

services:
  api:
    extra_hosts:
      - "host.docker.internal:host-gateway"
  worker:
    extra_hosts:
      - "host.docker.internal:host-gateway"

Let op: Op macOS en Windows wordt host.docker.internal automatisch opgelost. Op Linux is de bovenstaande extra_hosts-vermelding vereist.

Dify verbinden met Ollama

Met Ollama actief en bereikbaar, voegt u het toe als modelleverancier in Dify:

Open uw Dify-instantie en klik op uw avatar rechtsboven.
Ga naar Instellingen en vervolgens Modelleverancier.
Scroll naar beneden om Ollama te vinden en klik op Model toevoegen.
Stel de Basis-URL in op http://host.docker.internal:11434.
Voer de Modelnaam precies in zoals weergegeven door ollama list (bijv. llama3.1:8b).
Klik op Opslaan — Dify test de verbinding. Een groen vinkje bevestigt succes.
Het model is nu beschikbaar in al uw Dify-apps en workflows.

Tip: Herhaal stap 5 voor elk gedownload model. U kunt zoveel Ollama-modellen toevoegen als u wilt — elk verschijnt als een apart selecteerbaar model in Dify.

LocalAI — Een OpenAI-compatibel alternatief

Als u de voorkeur geeft aan een OpenAI-compatibel API-oppervlak, is LocalAI een uitstekend alternatief voor Ollama. Het biedt eindpunten zoals /v1/chat/completions, zodat u de bestaande OpenAI-integratie van Dify kunt gebruiken zonder extra configuratie.

LocalAI uitvoeren met Docker (GPU)

# Voer LocalAI uit met Docker (GPU ingeschakeld)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12

Configureer Dify na het opstarten met Modelleverancier: OpenAI-API-compatible, stel de basis-URL in op http://host.docker.internal:8080/v1 en gebruik de naam van een model dat in LocalAI is geladen. Voor lokale implementaties is geen API-sleutel vereist.

Modelaanbevelingen per gebruiksscenario

Kies uw model op basis van beschikbaar VRAM en de kwaliteit-snelheidsafweging die uw applicatie nodig heeft.

Model	Vereist VRAM	Snelheid	Ideaal voor
`llama3.1:8b`	~6 GB	Snel	Algemeen gebruik, chat
`mistral:7b`	~5 GB	Zeer snel	Snelheidskritieke apps
`codellama:13b`	~10 GB	Gemiddeld	Codegeneratie
`llama3.1:70b`	~40 GB	Langzaam	Hoogwaardige uitvoer
`mixtral:8x7b`	~26 GB	Gemiddeld	Balans kwaliteit/snelheid

VRAM snelreferentie

~6 GB

7B-modellen

bijv. Llama 3.1 8B, Mistral 7B

~10 GB

13B-modellen

bijv. CodeLlama 13B

~20 GB

34B-modellen

bijv. CodeLlama 34B

~40 GB

70B-modellen

bijv. Llama 3.1 70B

Dit zijn geschatte vereisten voor full-precision (fp16) inferentie. Gekwantiseerde modellen (Q4/Q5) kunnen VRAM-gebruik met 30–50% verminderen, waardoor grotere modellen op kleinere GPU's kunnen draaien.

Gerelateerde handleidingen

Dify zelf hosten gids

Volledig overzicht voor het zelf hosten van Dify op uw eigen server of VPS.

Dify Docker-installatie

Stapsgewijze Docker Compose-configuratie voor het uitvoeren van Dify in productie.

Beste Dify-hostingproviders

Vergelijking van beheerde en cloud-hostingopties voor Dify in 2026.