Atualizado em março de 2026 Guia RAG Avançado

Guia Dify RAG 2026: Responder Perguntas a partir dos Seus Documentos

O Retrieval-Augmented Generation (RAG) é o recurso mais poderoso do Dify. Este guia mostra exatamente como construir uma IA que pesquisa seus documentos antes de responder — entregando respostas precisas e fundamentadas em vez de suposições alucinadas.

O que é o Dify RAG?

RAG significa Retrieval-Augmented Generation. Essa técnica dá à sua IA acesso aos seus próprios documentos, bancos de dados e fontes de conhecimento — em vez de responder apenas com dados gerais de treinamento, ela primeiro pesquisa seu conteúdo e gera uma resposta com base no que encontrou.

LLMs padrão como GPT-4 ou Claude alucinam quando questionados sobre documentos internos, especificações de produtos ou políticas da empresa — simplesmente porque não conhecem esses dados. O Dify RAG resolve isso criando uma base de conhecimento a partir dos seus arquivos e inserindo os trechos de texto mais relevantes como contexto antes que o modelo responda.

O resultado: um chatbot de IA que responde com precisão a partir dos seus dados reais, cita fontes e diz "Não sei" quando a informação não está disponível — em vez de inventar algo.

✓ Respostas a partir dos seus documentos

✓ Muito menos alucinações

✓ Cita trechos específicos

✓ Funciona com PDF, Word, TXT, Markdown

✓ Sem necessidade de fine-tuning do modelo

✓ Base de conhecimento atualizável a qualquer momento

Como o Dify RAG funciona internamente

Entender o pipeline ajuda a configurar melhor. É assim que o processo funciona quando você faz upload de um documento e faz uma pergunta ao seu chatbot:

Ingestão de documentos

Você faz upload de um arquivo. O Dify extrai o conteúdo de texto de PDFs, documentos Word, Markdown etc.

Chunking

O texto é dividido em partes menores (tipicamente 500–1000 tokens) para que a pesquisa seja precisa.

Embedding

Cada parte é convertida em um vetor (lista de números) usando um modelo de embedding como text-embedding-3-small.

Armazenamento vetorial

Os vetores são armazenados em um banco de dados vetorial (integrado, pgvector, Qdrant, Weaviate, Milvus ou Pinecone).

Recuperação por consulta

Quando um usuário faz uma pergunta, ela também é incorporada e os trechos mais similares são recuperados do armazenamento vetorial.

Injeção de contexto

Os trechos recuperados são inseridos como contexto no prompt do LLM. O modelo responde com base nesses dados reais.

Importante entender: O RAG não modifica o LLM. Ele adiciona uma etapa de recuperação antes da geração. Isso significa que você pode atualizar sua base de conhecimento a qualquer momento sem mexer no modelo.

Configurar a base de conhecimento

A base de conhecimento é onde você faz upload e indexa seus documentos. Siga estes passos:

Abrir Dify → aba "Knowledge"

Clique em "Knowledge" (Conhecimento) na navegação superior. Aqui ficam todas as suas coleções de documentos.

Criar nova base de conhecimento

Clique em "+ Criar Conhecimento". Dê um nome descritivo (ex.: "Documentação do Produto", "FAQ de Suporte").

Fazer upload de arquivos

Arraste e solte arquivos ou selecione-os pelo navegador. Suportados: PDF, Word (.docx), TXT, Markdown (.md), HTML, CSV. Vários arquivos de uma vez são aceitos.

Escolher estratégia de chunking

Selecione "Automático" para a maioria dos casos. Isso divide documentos por parágrafos e títulos. Para documentos técnicos densos: "Personalizado" com chunks de 800 tokens e sobreposição de 150.

Selecionar modelo de embedding

Escolha seu modelo de embedding. O OpenAI text-embedding-3-small é recomendado — rápido, econômico e preciso. Na auto-hospedagem, o nomic-embed-text via Ollama também funciona offline.

Indexar documentos

Clique em "Salvar e Processar". O Dify divide e incorpora tudo. Dependendo do tamanho do documento, isso leva 1–5 minutos. Uma barra de progresso mostra o status.

Dica: Documentos bem formatados são indexados melhor. Remova cabeçalhos, rodapés, números de página e textos padrão dos seus PDFs antes de fazer upload para melhorar a qualidade de recuperação.

Conectar RAG ao seu app

Assim que sua base de conhecimento estiver indexada, conecte-a a um chatbot ou agente:

Abra seu chatbot ou agente no Studio

Procure a seção "Contexto" no painel esquerdo

Clique em "+ Adicionar Contexto" e selecione sua base de conhecimento

Defina o modo de recuperação como "Pesquisa Semântica" (recomendado) para recuperação baseada em significado ou "Pesquisa de Texto Completo" para correspondência de palavras-chave

Defina "Top K" para 3–5 (quantos trechos são recuperados por consulta). Comece com 3.

Ative o "Limite de pontuação" em 0,5 para filtrar resultados irrelevantes

Teste no painel de prévia com perguntas dos seus documentos. Verifique se o bot fornece informações corretas.

Dica profissional: Adicione ao seu prompt do sistema: "Ao responder a partir do contexto fornecido, sempre indique o nome do documento de origem." Isso torna transparente qual documento foi usado como fonte.

Bancos de dados vetoriais suportados

O Dify suporta vários armazenamentos vetoriais. Para a maioria dos usuários, o armazenamento integrado é suficiente. Para grandes implantações (milhões de documentos), migre para um banco de dados vetorial dedicado:

Armazenamento Vetorial	Configuração	Ideal para	Custo
Integrado (Padrão) Recomendado	Nenhuma	Maioria dos usuários — até ~100k documentos	Gratuito
pgvector	Extensão PostgreSQL	Usuários PostgreSQL existentes	Gratuito (auto-hospedado)
Qdrant	Container Docker	Auto-hospedado, alto desempenho	Gratuito (auto-hospedado)
Weaviate	Docker ou Cloud	Dados multimodais (texto + imagens)	Gratuito / Cloud pago
Milvus	Docker ou Zilliz Cloud	Bilhões de vetores, Enterprise	Gratuito / Cloud pago
Pinecone	Apenas chave de API	Totalmente gerenciado, sem infraestrutura	SaaS pago

Recomendação: Comece com o armazenamento vetorial integrado. Ele não requer configuração e funciona bem para a maioria dos projetos. Migre para um armazenamento externo somente quando tiver mais de 100.000 chunks de documentos.

Dicas de RAG para melhores resultados

Essas dicas de configuração melhoram significativamente a precisão do seu RAG:

Tamanho ideal de chunk: 500–1000 tokens

Muito pequeno = contexto insuficiente. Muito grande = relevância diluída. Para a maioria dos documentos, 600 tokens com 100 de sobreposição é ideal.

Limpar documentos de origem

Remova cabeçalhos e rodapés recorrentes, números de página e elementos de navegação. Eles criam ruído que prejudica a qualidade de recuperação.

Usar filtragem por metadados

Rotule documentos com categorias (ex.: "Produto: Faturamento", "Tipo: FAQ"). Os filtros permitem recuperação precisa de subconjuntos relevantes.

Separar bases de conhecimento por tema

Não misture o manual do produto com a política de RH. Conjuntos separados permitem recuperação mais precisa. Você pode anexar múltiplas bases a um app.

Usar pesquisa híbrida

O Dify suporta um modo híbrido (semântico + palavras-chave combinados). Ideal para termos exatos como códigos de produto ou nomes próprios.

Monitorar recuperação nos logs

Vá para Logs e Anotações no seu app para ver quais chunks foram recuperados para cada consulta. Use isso para diagnosticar respostas ruins.

Modos de recuperação explicados

O Dify oferece três modos de recuperação. Escolha de acordo com o tipo de conteúdo:

Recomendado

Pesquisa Semântica

Encontra conteúdo conceitualmente similar mesmo quando as palavras exatas diferem. Ideal para perguntas em linguagem natural sobre tópicos complexos. Usa similaridade vetorial.

Pesquisa de Texto Completo

Pesquisa baseada em palavras-chave como um mecanismo de busca clássico. Melhor para termos exatos: códigos de produto, nomes, IDs. Rápido e previsível.

Pesquisa Híbrida

Combina pesquisa semântica e de texto completo com um reranker. Melhor precisão geral, mas mais lento. Requer um modelo de reranking (ex.: cohere-rerank).

Fontes de dados externas e sincronização

O Dify vai além de simples uploads de arquivos. Você pode conectar fontes externas que se sincronizam automaticamente:

Notion

Conecte seu workspace Notion. O Dify sincroniza páginas automaticamente. Ideal para wikis de equipe e documentação.

Web Scraping

Forneça uma URL e o Dify busca a página e a indexa. Ótimo para páginas de documentação públicas.

API personalizada

Crie um plugin de recuperação via API de Base de Conhecimento Externa. Conecte qualquer banco de dados ou fonte de dados proprietária.

Sincronização de arquivos via API

Faça upload e atualize documentos programaticamente via API de Dataset. Útil para integrações com CMS.

Perguntas frequentes

O que é o Dify RAG?

RAG significa Retrieval-Augmented Generation. Com o Dify RAG, sua IA pode pesquisar seus próprios documentos, PDFs ou bancos de dados antes de responder — o que reduz alucinações significativamente e melhora a precisão em perguntas específicas.

Quais formatos de arquivo o Dify RAG suporta?

A base de conhecimento do Dify suporta PDF, Word (.docx), texto simples (.txt), Markdown (.md), HTML e arquivos CSV. Você também pode conectar fontes de dados externas via API ou sincronizar com o Notion.

Como o Dify RAG reduz alucinações?

Em vez de depender apenas do conhecimento de treinamento do LLM, o Dify RAG recupera trechos de texto relevantes dos seus documentos e os insere como contexto. O modelo então responde com base nos seus dados reais.

Quais bancos de dados vetoriais funcionam com o Dify RAG?

O Dify suporta vários vetores: integrado (padrão, sem configuração), pgvector (PostgreSQL), Qdrant, Weaviate, Milvus e Pinecone. O armazenamento integrado é suficiente para a maioria dos usuários.

Pronto para auto-hospedar o Dify com RAG?

Auto-hospedar o Dify dá a você controle total sobre seus dados — essencial quando sua base de conhecimento contém documentos sensíveis. Execute o Dify no seu próprio servidor a partir de €3,79/mês no Hetzner ou use uma instância totalmente gerenciada no Elestio em menos de 5 minutos.

Auto-hospedar Dify no Hetzner → Dify gerenciado no Elestio Comparar todas as opções de hospedagem