Aggiornato marzo 2026 $0 costi API

Guida GPU Hosting Dify 2026
Esegui LLM locali con Dify

Ospita Dify su un server GPU e collegalo a Ollama o LocalAI per eseguire Llama 3, Mistral e altri modelli open-source in locale — senza costi per token e con completa privacy dei dati.

Perché eseguire Dify su un server GPU?

Collegare Dify a un LLM ospitato localmente tramite Ollama o LocalAI elimina completamente la dipendenza dai provider AI cloud. Ecco cosa guadagni:

💰

Zero costi API

Paghi solo il server GPU, non per token. L'utilizzo ad alto volume diventa notevolmente più economico.

🔒

Privacy dei dati

Prompt e risposte non lasciano mai la tua infrastruttura — essenziale per i settori regolamentati.

🧩

Modelli personalizzati

Esegui modelli fine-tuned o specifici per dominio non disponibili tramite API pubbliche.

🚀

Nessun limite di velocità

Gestisci tante richieste quante ne supporta la tua GPU — nessun throttling, nessun errore di quota.

Confronto provider cloud GPU

I prezzi sono tariffe on-demand approssimative all'inizio del 2026. Le istanze riservate e spot sono tipicamente più economiche.

Provider GPU VRAM Prezzo/ora Ideale per
Lambda Labs A10 24 GB $0.75/hr Sviluppo
Vast.ai RTX 4090 24 GB ~$0.35/hr Budget
RunPod A100 80 GB $1.99/hr Produzione
CoreWeave H100 80 GB $2.50/hr Enterprise
Hetzner GPU A100 80 GB 2.49 EUR/hr Conformità UE
1

Installa CUDA e NVIDIA Container Toolkit

Prima di installare Dify o Ollama, devi avere i driver NVIDIA CUDA e il Container Toolkit affinché i container Docker possano accedere alla GPU.

Installa CUDA Toolkit 12.3

# Verifica se il driver NVIDIA è già installato
nvidia-smi

# Se non installato, aggiungi il repository NVIDIA
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# Installa il toolkit CUDA (include i driver)
sudo apt install -y cuda-toolkit-12-3

# Riavvio necessario dopo l'installazione del driver
sudo reboot

Verifica GPU e configura Docker

# Dopo il riavvio, verifica che la GPU sia rilevata
nvidia-smi

# Installa NVIDIA Container Toolkit (per accesso GPU da Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

Dopo aver eseguito nvidia-smi, dovresti vedere la tua GPU elencata con versione driver e VRAM. Se Docker può usare --gpus all, sei pronto per il passo successivo.

2

Installa Ollama e scarica i modelli LLM

Ollama è il modo più semplice per servire LLM open-source sulla tua GPU. Rileva automaticamente CUDA e usa la GPU per l'inferenza.

Installa Ollama e scarica i modelli

# Installa Ollama (installer a riga singola)
curl -fsSL https://ollama.com/install.sh | sh

# Verifica che Ollama sia in esecuzione
ollama list

# Scarica modelli LLM
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b

# Testa un modello
ollama run llama3.1:8b "Ciao, cosa puoi fare?"

Configura Ollama per tutte le interfacce di rete

Per impostazione predefinita Ollama ascolta solo su localhost. Per renderlo raggiungibile dai container Docker di Dify, associalo a 0.0.0.0:

# Modifica il servizio systemd di Ollama per ascoltare su tutte le interfacce
sudo systemctl edit ollama --force --full

# Trova la sezione [Service] e aggiungi:
# Environment="OLLAMA_HOST=0.0.0.0:11434"

# Applica le modifiche
sudo systemctl daemon-reload
sudo systemctl restart ollama

Configura docker-compose.override.yaml

Crea o modifica docker-compose.override.yaml nella directory Dify per risolvere host.docker.internal su Linux:

services:
  api:
    extra_hosts:
      - "host.docker.internal:host-gateway"
  worker:
    extra_hosts:
      - "host.docker.internal:host-gateway"

Nota: Su macOS e Windows, host.docker.internal si risolve automaticamente. Su Linux, la voce extra_hosts è necessaria.

3

Collega Dify a Ollama

Con Ollama in esecuzione e raggiungibile, aggiungilo come provider di modelli in Dify:

  1. Apri la tua istanza Dify e fai clic sull'avatar in alto a destra.
  2. Vai a Impostazioni poi Provider modello.
  3. Scorri verso il basso per trovare Ollama e fai clic su Aggiungi modello.
  4. Imposta l'URL base su http://host.docker.internal:11434.
  5. Inserisci il Nome modello esattamente come elencato da ollama list (es. llama3.1:8b).
  6. Fai clic su Salva — Dify testerà la connessione. Un segno di spunta verde conferma il successo.
  7. Il modello è ora disponibile in tutte le tue app e workflow Dify.
4

LocalAI — Un'alternativa compatibile con OpenAI

Se preferisci un'interfaccia API compatibile con OpenAI, LocalAI è un'eccellente alternativa a Ollama. Espone endpoint come /v1/chat/completions così puoi usare l'integrazione OpenAI esistente di Dify senza configurazioni extra.

Esegui LocalAI con Docker (GPU)

# Esegui LocalAI con Docker (con GPU)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12

Una volta avviato, configura Dify con Provider modello: OpenAI-API-compatible, imposta l'URL base su http://host.docker.internal:8080/v1 e usa qualsiasi nome modello caricato in LocalAI. Nessuna API key è richiesta per distribuzioni locali.

Raccomandazioni modelli per caso d'uso

Scegli il modello in base alla VRAM disponibile e al compromesso qualità-velocità della tua applicazione.

Modello VRAM richiesta Velocità Ideale per
llama3.1:8b ~6 GB Veloce Uso generale, chat
mistral:7b ~5 GB Molto veloce App critiche per velocità
codellama:13b ~10 GB Medio Generazione codice
llama3.1:70b ~40 GB Lento Output di alta qualità
mixtral:8x7b ~26 GB Medio Equilibrio qualità/velocità

Riferimento rapido VRAM

~6 GB
Modelli 7B
es. Llama 3.1 8B, Mistral 7B
~10 GB
Modelli 13B
es. CodeLlama 13B
~20 GB
Modelli 34B
es. CodeLlama 34B
~40 GB
Modelli 70B
es. Llama 3.1 70B

Requisiti approssimativi per inferenza a piena precisione (fp16). I modelli quantizzati (Q4/Q5) riducono la VRAM del 30–50%.

Guide correlate

Guida Self-Host Dify
Guida completa per ospitare Dify autonomamente sul tuo server o VPS.
Configurazione Docker Dify
Configurazione Docker Compose passo-passo per Dify in produzione.
Migliori provider Dify Hosting
Confronto tra opzioni di hosting gestito e cloud per Dify nel 2026.