Atualizado em março de 2026 $0 em custos de API

Guia de Hospedagem Dify GPU 2026 — Execute LLMs Locais com Dify

Hospede o Dify em um servidor GPU e conecte-o ao Ollama ou LocalAI para executar Llama 3, Mistral e outros modelos de código aberto localmente — sem custos de API por token e com privacidade total dos dados.

Por que executar o Dify em um servidor GPU?

Conectar o Dify a um LLM hospedado localmente via Ollama ou LocalAI elimina completamente a dependência de provedores de IA em nuvem. Veja o que você ganha:

💰

Sem Custos de API

Pague apenas pelo servidor GPU — não por token. O uso em alto volume torna-se drasticamente mais barato.

🔒

Privacidade de Dados

Prompts e respostas nunca saem da sua infraestrutura — essencial para setores regulados.

🧩

Modelos Personalizados

Execute modelos ajustados ou específicos de domínio que não estão disponíveis em nenhuma API pública.

🚀

Sem Limites de Taxa

Envie quantas requisições sua GPU suportar — sem throttling, sem erros de cota.

Comparativo de Provedores de GPU em Nuvem

Os preços são tarifas aproximadas sob demanda no início de 2026. Instâncias reservadas e spot costumam ser mais baratas.

Provedor GPU VRAM Preço/hr Ideal para
Lambda Labs A10 24 GB $0,75/hr Desenvolvimento
Vast.ai RTX 4090 24 GB ~$0,35/hr Econômico
RunPod A100 80 GB $1,99/hr Produção
CoreWeave H100 80 GB $2,50/hr Empresarial
Hetzner GPU A100 80 GB 2,49 EUR/hr Conformidade UE
1

Instalar CUDA e NVIDIA Container Toolkit

Antes de instalar o Dify ou o Ollama, você precisa dos drivers NVIDIA CUDA e do Container Toolkit para que os contêineres Docker possam acessar a GPU.

Instalar o CUDA Toolkit 12.3

# Verificar se o driver NVIDIA já está instalado
nvidia-smi

# Se não estiver instalado, adicione o repositório NVIDIA
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# Instalar o CUDA toolkit (inclui drivers)
sudo apt install -y cuda-toolkit-12-3

# Reinicialização necessária após instalar o driver
sudo reboot

Verificar a GPU e Configurar o Docker

# Após reinicialização, verificar se a GPU é detectada
nvidia-smi

# Instalar o NVIDIA Container Toolkit (para acesso à GPU pelo Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

Após executar nvidia-smi, você deverá ver sua GPU listada com a versão do driver e a VRAM. Se o Docker puder usar --gpus all, você está pronto para o próximo passo.

2

Instalar o Ollama e Baixar Modelos LLM

O Ollama é a forma mais fácil de servir LLMs de código aberto na sua GPU. Ele detecta automaticamente o CUDA e usa a GPU para inferência.

Instalar o Ollama e Baixar Modelos

# Instalar o Ollama (instalador em uma linha)
curl -fsSL https://ollama.com/install.sh | sh

# Verificar se o Ollama está em execução
ollama list

# Baixar modelos LLM
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b

# Testar um modelo
ollama run llama3.1:8b "Olá, o que você pode fazer?"

Vincular o Ollama a Todas as Interfaces de Rede

Por padrão, o Ollama escuta apenas no localhost. Para torná-lo acessível a partir dos contêineres Docker do Dify, você precisa vinculá-lo a 0.0.0.0:

# Editar o serviço systemd do Ollama para vincular a todas as interfaces
sudo systemctl edit ollama --force --full

# Localize a seção [Service] e adicione:
# Environment="OLLAMA_HOST=0.0.0.0:11434"

# Aplicar as alterações
sudo systemctl daemon-reload
sudo systemctl restart ollama

Configurar o docker-compose.override.yaml

Crie ou edite o docker-compose.override.yaml no diretório do Dify para que os contêineres possam resolver host.docker.internal para a máquina host no Linux:

services:
  api:
    extra_hosts:
      - "host.docker.internal:host-gateway"
  worker:
    extra_hosts:
      - "host.docker.internal:host-gateway"

Nota: No macOS e no Windows, host.docker.internal é resolvido automaticamente. No Linux, a entrada extra_hosts acima é obrigatória.

3

Conectar o Dify ao Ollama

Com o Ollama em execução e acessível, adicione-o como provedor de modelo no Dify:

  1. Abra sua instância do Dify e clique no seu avatar no canto superior direito.
  2. Acesse Configurações e depois Provedor de Modelos.
  3. Role para baixo para encontrar o Ollama e clique em Adicionar Modelo.
  4. Defina a URL Base como http://host.docker.internal:11434.
  5. Insira o Nome do Modelo exatamente como listado por ollama list (ex.: llama3.1:8b).
  6. Clique em Salvar — o Dify testará a conexão. Um ícone verde confirma o sucesso.
  7. O modelo agora está disponível em todos os seus apps e workflows do Dify.

Dica: Repita o passo 5 para cada modelo baixado. Você pode adicionar quantos modelos Ollama quiser — cada um aparece como um modelo selecionável separado no Dify.

4

LocalAI — Uma Alternativa Compatível com OpenAI

Se você prefere uma interface de API compatível com OpenAI, o LocalAI é uma excelente alternativa ao Ollama. Ele expõe endpoints como /v1/chat/completions para que você possa usar a integração OpenAI existente do Dify sem configurações extras.

Executar o LocalAI com Docker (GPU)

# Executar LocalAI com Docker (com GPU habilitada)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12

Após a execução, configure o Dify com Provedor de Modelos: OpenAI-API-compatible, defina a URL base como http://host.docker.internal:8080/v1 e use qualquer nome de modelo carregado no LocalAI. Nenhuma chave de API é necessária para implantações locais.

Recomendações de Modelos por Caso de Uso

Escolha seu modelo com base na VRAM disponível e no equilíbrio entre qualidade e velocidade que sua aplicação exige.

Modelo VRAM Necessária Velocidade Ideal para
llama3.1:8b ~6 GB Rápido Uso geral, chat
mistral:7b ~5 GB Muito rápido Apps com prioridade de velocidade
codellama:13b ~10 GB Médio Geração de código
llama3.1:70b ~40 GB Lento Saídas de alta qualidade
mixtral:8x7b ~26 GB Médio Equilíbrio qualidade/velocidade

Referência Rápida de VRAM

~6 GB
Modelos 7B
ex.: Llama 3.1 8B, Mistral 7B
~10 GB
Modelos 13B
ex.: CodeLlama 13B
~20 GB
Modelos 34B
ex.: CodeLlama 34B
~40 GB
Modelos 70B
ex.: Llama 3.1 70B

Estes são requisitos aproximados para inferência em precisão total (fp16). Modelos quantizados (Q4/Q5) podem reduzir o uso de VRAM em 30–50%, permitindo que modelos maiores rodem em GPUs menores.

Guias Relacionados

Guia de Auto-Hospedagem do Dify
Tutorial completo para auto-hospedar o Dify no seu próprio servidor ou VPS.
Configuração do Dify com Docker
Configuração passo a passo do Docker Compose para executar o Dify em produção.
Melhores Provedores de Hospedagem Dify
Comparativo de opções de hospedagem gerenciada e em nuvem para o Dify em 2026.