Atualizado em março de 2026 $0 em custos de API

Guia de Hospedagem Dify GPU 2026 — Execute LLMs Locais com Dify

Hospede o Dify em um servidor GPU e conecte-o ao Ollama ou LocalAI para executar Llama 3, Mistral e outros modelos de código aberto localmente — sem custos de API por token e com privacidade total dos dados.

Por que executar o Dify em um servidor GPU?

Conectar o Dify a um LLM hospedado localmente via Ollama ou LocalAI elimina completamente a dependência de provedores de IA em nuvem. Veja o que você ganha:

💰

Sem Custos de API

Pague apenas pelo servidor GPU — não por token. O uso em alto volume torna-se drasticamente mais barato.

🔒

Privacidade de Dados

Prompts e respostas nunca saem da sua infraestrutura — essencial para setores regulados.

🧩

Modelos Personalizados

Execute modelos ajustados ou específicos de domínio que não estão disponíveis em nenhuma API pública.

🚀

Sem Limites de Taxa

Envie quantas requisições sua GPU suportar — sem throttling, sem erros de cota.

Comparativo de Provedores de GPU em Nuvem

Os preços são tarifas aproximadas sob demanda no início de 2026. Instâncias reservadas e spot costumam ser mais baratas.

Provedor	GPU	VRAM	Preço/hr	Ideal para
Lambda Labs	A10	24 GB	$0,75/hr	Desenvolvimento
Vast.ai	RTX 4090	24 GB	~$0,35/hr	Econômico
RunPod	A100	80 GB	$1,99/hr	Produção
CoreWeave	H100	80 GB	$2,50/hr	Empresarial
Hetzner GPU	A100	80 GB	2,49 EUR/hr	Conformidade UE

Instalar CUDA e NVIDIA Container Toolkit

Antes de instalar o Dify ou o Ollama, você precisa dos drivers NVIDIA CUDA e do Container Toolkit para que os contêineres Docker possam acessar a GPU.

Instalar o CUDA Toolkit 12.3

# Verificar se o driver NVIDIA já está instalado
nvidia-smi

# Se não estiver instalado, adicione o repositório NVIDIA
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update

# Instalar o CUDA toolkit (inclui drivers)
sudo apt install -y cuda-toolkit-12-3

# Reinicialização necessária após instalar o driver
sudo reboot

Verificar a GPU e Configurar o Docker

# Após reinicialização, verificar se a GPU é detectada
nvidia-smi

# Instalar o NVIDIA Container Toolkit (para acesso à GPU pelo Docker)
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
sudo apt update && sudo apt install -y nvidia-container-toolkit
sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

Após executar nvidia-smi, você deverá ver sua GPU listada com a versão do driver e a VRAM. Se o Docker puder usar --gpus all, você está pronto para o próximo passo.

Instalar o Ollama e Baixar Modelos LLM

O Ollama é a forma mais fácil de servir LLMs de código aberto na sua GPU. Ele detecta automaticamente o CUDA e usa a GPU para inferência.

Instalar o Ollama e Baixar Modelos

# Instalar o Ollama (instalador em uma linha)
curl -fsSL https://ollama.com/install.sh | sh

# Verificar se o Ollama está em execução
ollama list

# Baixar modelos LLM
ollama pull llama3.1:8b
ollama pull mistral:7b
ollama pull codellama:13b

# Testar um modelo
ollama run llama3.1:8b "Olá, o que você pode fazer?"

Vincular o Ollama a Todas as Interfaces de Rede

Por padrão, o Ollama escuta apenas no localhost. Para torná-lo acessível a partir dos contêineres Docker do Dify, você precisa vinculá-lo a 0.0.0.0:

# Editar o serviço systemd do Ollama para vincular a todas as interfaces
sudo systemctl edit ollama --force --full

# Localize a seção [Service] e adicione:
# Environment="OLLAMA_HOST=0.0.0.0:11434"

# Aplicar as alterações
sudo systemctl daemon-reload
sudo systemctl restart ollama

Configurar o docker-compose.override.yaml

Crie ou edite o docker-compose.override.yaml no diretório do Dify para que os contêineres possam resolver host.docker.internal para a máquina host no Linux:

services:
  api:
    extra_hosts:
      - "host.docker.internal:host-gateway"
  worker:
    extra_hosts:
      - "host.docker.internal:host-gateway"

Nota: No macOS e no Windows, host.docker.internal é resolvido automaticamente. No Linux, a entrada extra_hosts acima é obrigatória.

Conectar o Dify ao Ollama

Com o Ollama em execução e acessível, adicione-o como provedor de modelo no Dify:

Abra sua instância do Dify e clique no seu avatar no canto superior direito.
Acesse Configurações e depois Provedor de Modelos.
Role para baixo para encontrar o Ollama e clique em Adicionar Modelo.
Defina a URL Base como http://host.docker.internal:11434.
Insira o Nome do Modelo exatamente como listado por ollama list (ex.: llama3.1:8b).
Clique em Salvar — o Dify testará a conexão. Um ícone verde confirma o sucesso.
O modelo agora está disponível em todos os seus apps e workflows do Dify.

Dica: Repita o passo 5 para cada modelo baixado. Você pode adicionar quantos modelos Ollama quiser — cada um aparece como um modelo selecionável separado no Dify.

LocalAI — Uma Alternativa Compatível com OpenAI

Se você prefere uma interface de API compatível com OpenAI, o LocalAI é uma excelente alternativa ao Ollama. Ele expõe endpoints como /v1/chat/completions para que você possa usar a integração OpenAI existente do Dify sem configurações extras.

Executar o LocalAI com Docker (GPU)

# Executar LocalAI com Docker (com GPU habilitada)
docker run -d --gpus all -p 8080:8080 -v /path/to/models:/models --name local-ai localai/localai:latest-aio-gpu-nvidia-cuda-12

Após a execução, configure o Dify com Provedor de Modelos: OpenAI-API-compatible, defina a URL base como http://host.docker.internal:8080/v1 e use qualquer nome de modelo carregado no LocalAI. Nenhuma chave de API é necessária para implantações locais.

Recomendações de Modelos por Caso de Uso

Escolha seu modelo com base na VRAM disponível e no equilíbrio entre qualidade e velocidade que sua aplicação exige.

Modelo	VRAM Necessária	Velocidade	Ideal para
`llama3.1:8b`	~6 GB	Rápido	Uso geral, chat
`mistral:7b`	~5 GB	Muito rápido	Apps com prioridade de velocidade
`codellama:13b`	~10 GB	Médio	Geração de código
`llama3.1:70b`	~40 GB	Lento	Saídas de alta qualidade
`mixtral:8x7b`	~26 GB	Médio	Equilíbrio qualidade/velocidade

Referência Rápida de VRAM

~6 GB

Modelos 7B

ex.: Llama 3.1 8B, Mistral 7B

~10 GB

Modelos 13B

ex.: CodeLlama 13B

~20 GB

Modelos 34B

ex.: CodeLlama 34B

~40 GB

Modelos 70B

ex.: Llama 3.1 70B

Estes são requisitos aproximados para inferência em precisão total (fp16). Modelos quantizados (Q4/Q5) podem reduzir o uso de VRAM em 30–50%, permitindo que modelos maiores rodem em GPUs menores.

Guias Relacionados

Guia de Auto-Hospedagem do Dify

Tutorial completo para auto-hospedar o Dify no seu próprio servidor ou VPS.

Configuração do Dify com Docker

Configuração passo a passo do Docker Compose para executar o Dify em produção.

Melhores Provedores de Hospedagem Dify

Comparativo de opções de hospedagem gerenciada e em nuvem para o Dify em 2026.