Guia de Hospedagem Dify GPU 2026 — Execute LLMs Locais com Dify
Hospede o Dify em um servidor GPU e conecte-o ao Ollama ou LocalAI para executar Llama 3, Mistral e outros modelos de código aberto localmente — sem custos de API por token e com privacidade total dos dados.
Por que executar o Dify em um servidor GPU?
Conectar o Dify a um LLM hospedado localmente via Ollama ou LocalAI elimina completamente a dependência de provedores de IA em nuvem. Veja o que você ganha:
Sem Custos de API
Pague apenas pelo servidor GPU — não por token. O uso em alto volume torna-se drasticamente mais barato.
Privacidade de Dados
Prompts e respostas nunca saem da sua infraestrutura — essencial para setores regulados.
Modelos Personalizados
Execute modelos ajustados ou específicos de domínio que não estão disponíveis em nenhuma API pública.
Sem Limites de Taxa
Envie quantas requisições sua GPU suportar — sem throttling, sem erros de cota.
Comparativo de Provedores de GPU em Nuvem
Os preços são tarifas aproximadas sob demanda no início de 2026. Instâncias reservadas e spot costumam ser mais baratas.
| Provedor | GPU | VRAM | Preço/hr | Ideal para |
|---|---|---|---|---|
| Lambda Labs | A10 | 24 GB | $0,75/hr | Desenvolvimento |
| Vast.ai | RTX 4090 | 24 GB | ~$0,35/hr | Econômico |
| RunPod | A100 | 80 GB | $1,99/hr | Produção |
| CoreWeave | H100 | 80 GB | $2,50/hr | Empresarial |
| Hetzner GPU | A100 | 80 GB | 2,49 EUR/hr | Conformidade UE |
Instalar CUDA e NVIDIA Container Toolkit
Antes de instalar o Dify ou o Ollama, você precisa dos drivers NVIDIA CUDA e do Container Toolkit para que os contêineres Docker possam acessar a GPU.
Instalar o CUDA Toolkit 12.3
# Verificar se o driver NVIDIA já está instalado
nvidia-smi
# Se não estiver instalado, adicione o repositório NVIDIA
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
# Instalar o CUDA toolkit (inclui drivers)
sudo apt install -y cuda-toolkit-12-3
# Reinicialização necessária após instalar o driver
sudo reboot Verificar a GPU e Configurar o Docker
# Após reinicialização, verificar se a GPU é detectada
nvidia-smi
# Instalar o NVIDIA Container Toolkit (para acesso à GPU pelo Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker Após executar nvidia-smi, você deverá ver sua GPU listada com a versão do driver e a VRAM. Se o Docker puder usar --gpus all, você está pronto para o próximo passo.
Instalar o Ollama e Baixar Modelos LLM
O Ollama é a forma mais fácil de servir LLMs de código aberto na sua GPU. Ele detecta automaticamente o CUDA e usa a GPU para inferência.
Instalar o Ollama e Baixar Modelos
# Instalar o Ollama (instalador em uma linha)
curl -fsSL https://ollama.com/install.sh | sh
# Verificar se o Ollama está em execução
ollama list
# Baixar modelos LLM
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b
# Testar um modelo
ollama run llama3.1:8b "Olá, o que você pode fazer?" Vincular o Ollama a Todas as Interfaces de Rede
Por padrão, o Ollama escuta apenas no localhost. Para torná-lo acessível a partir dos contêineres Docker do Dify, você precisa vinculá-lo a 0.0.0.0:
# Editar o serviço systemd do Ollama para vincular a todas as interfaces
sudo systemctl edit ollama --force --full
# Localize a seção [Service] e adicione:
# Environment="OLLAMA_HOST=0.0.0.0:11434"
# Aplicar as alterações
sudo systemctl daemon-reload
sudo systemctl restart ollama Configurar o docker-compose.override.yaml
Crie ou edite o docker-compose.override.yaml no diretório do Dify para que os contêineres possam resolver host.docker.internal para a máquina host no Linux:
services:
api:
extra_hosts:
- "host.docker.internal:host-gateway"
worker:
extra_hosts:
- "host.docker.internal:host-gateway" Nota: No macOS e no Windows, host.docker.internal é resolvido automaticamente. No Linux, a entrada extra_hosts acima é obrigatória.
Conectar o Dify ao Ollama
Com o Ollama em execução e acessível, adicione-o como provedor de modelo no Dify:
- Abra sua instância do Dify e clique no seu avatar no canto superior direito.
- Acesse Configurações e depois Provedor de Modelos.
- Role para baixo para encontrar o Ollama e clique em Adicionar Modelo.
- Defina a URL Base como
http://host.docker.internal:11434. - Insira o Nome do Modelo exatamente como listado por
ollama list(ex.:llama3.1:8b). - Clique em Salvar — o Dify testará a conexão. Um ícone verde confirma o sucesso.
- O modelo agora está disponível em todos os seus apps e workflows do Dify.
Dica: Repita o passo 5 para cada modelo baixado. Você pode adicionar quantos modelos Ollama quiser — cada um aparece como um modelo selecionável separado no Dify.
LocalAI — Uma Alternativa Compatível com OpenAI
Se você prefere uma interface de API compatível com OpenAI, o LocalAI é uma excelente alternativa ao Ollama. Ele expõe endpoints como /v1/chat/completions para que você possa usar a integração OpenAI existente do Dify sem configurações extras.
Executar o LocalAI com Docker (GPU)
# Executar LocalAI com Docker (com GPU habilitada)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12 Após a execução, configure o Dify com Provedor de Modelos: OpenAI-API-compatible, defina a URL base como http://host.docker.internal:8080/v1 e use qualquer nome de modelo carregado no LocalAI. Nenhuma chave de API é necessária para implantações locais.
Recomendações de Modelos por Caso de Uso
Escolha seu modelo com base na VRAM disponível e no equilíbrio entre qualidade e velocidade que sua aplicação exige.
| Modelo | VRAM Necessária | Velocidade | Ideal para |
|---|---|---|---|
llama3.1:8b | ~6 GB | Rápido | Uso geral, chat |
mistral:7b | ~5 GB | Muito rápido | Apps com prioridade de velocidade |
codellama:13b | ~10 GB | Médio | Geração de código |
llama3.1:70b | ~40 GB | Lento | Saídas de alta qualidade |
mixtral:8x7b | ~26 GB | Médio | Equilíbrio qualidade/velocidade |
Referência Rápida de VRAM
Estes são requisitos aproximados para inferência em precisão total (fp16). Modelos quantizados (Q4/Q5) podem reduzir o uso de VRAM em 30–50%, permitindo que modelos maiores rodem em GPUs menores.