Dify KI-Agenten Anleitung 2026: Autonome KI mit Tools bauen
Dify KI-Agenten gehen weit über einfache Chatbots hinaus — sie können das Web durchsuchen, Python-Code ausführen, beliebige APIs aufrufen und mehrstufige Aufgaben autonom lösen. Diese Anleitung erklärt alles: vom ersten Agenten bis hin zu Custom Tools und Multi-Agenten-Systemen.
Was sind Dify KI-Agenten?
Ein Dify KI-Agent ist eine KI-Anwendung, die autonom entscheidet, welche Tools sie nutzen soll, um eine Aufgabe zu erfüllen. Im Gegensatz zu einem gewöhnlichen Chatbot, der nur Text basierend auf dem Prompt erzeugt, kann ein Agent reale Aktionen ausführen: Google durchsuchen, einen Wikipedia-Artikel lesen, ein Python-Skript ausführen, das aktuelle Wetter abrufen oder eine beliebige REST-API aufrufen.
Der entscheidende Unterschied ist die Handlungsfähigkeit: Du gibst dem Agenten ein Ziel (z.B. "Recherchiere die Top 5 KI-Startups 2026 und fasse ihre Finanzierung zusammen"), und der Agent bestimmt selbstständig die notwendigen Schritte — Web-Suche, Ergebnisse lesen, Informationen filtern und eine Antwort zusammenstellen.
Agent vs. Chatbot vs. Workflow — Wann was nutzen?
Dify bietet drei Haupttypen von Apps. Das Verständnis, wann welcher Typ am besten geeignet ist, spart Zeit und liefert bessere Ergebnisse:
| Merkmal | Chatbot | Workflow | Agent |
|---|---|---|---|
| Tool-Nutzung | ✗ Keine | ✓ Feste Tools | ✓ Dynamische Wahl |
| Entscheidung | Keine | Feste Verzweigungen | Autonomes Reasoning |
| Ideal für | Q&A, Support-Bots | Pipelines, Automatisierung | Recherche, komplexe Tasks |
| Schritte | 1 Schritt (Prompt → Antwort) | Vordefinierte Schritte | Variabel, zur Laufzeit |
| Echtzeit-Daten | ✗ Nein | Nur via HTTP-Nodes | ✓ Ja, via Tools |
| Vorhersagbarkeit | Hoch | Sehr hoch | Niedriger (flexibel) |
Chatbot verwenden wenn...
Du einen einfachen Gesprächsassistenten für Kundensupport, FAQ-Beantwortung oder Helpdesk benötigst. Statisches Wissen, keine Echtzeit-Daten nötig.
Workflow verwenden wenn...
Du eine wiederholbare, deterministische Pipeline hast: Text übersetzen, Artikel zusammenfassen, Support-Tickets klassifizieren. Immer dieselben Schritte.
Agent verwenden wenn...
Die Aufgabe Echtzeit-Informationen, mehrere Tools oder dynamische Entscheidungen erfordert. Recherche, Wettbewerbsanalyse, Live-Datenabrufe oder komplexe mehrstufige Aufgaben.
Deinen ersten Dify Agenten erstellen
Folge diesen Schritten, um einen Research-Agenten zu bauen, der im Web suchen und Berechnungen durchführen kann. Das dauert etwa 10 Minuten:
Neue App erstellen
Klicke in Dify Studio auf "+ App erstellen". Wenn du nach dem Typ gefragt wirst, wähle "Agent". Gib einen Namen ein, z.B. "Recherche-Assistent".
System-Prompt schreiben
Beschreibe die Rolle des Agenten. Beispiel: "Du bist ein Recherche-Assistent. Wenn aktuelle Informationen benötigt werden, nutze Google Search. Verwende den Calculator für Berechnungen. Zitiere immer deine Quellen."
Tools hinzufügen
Im Bereich "Tools" (linkes Panel) klicke auf "+ Tool hinzufügen". Aktiviere "Google Search" — du benötigst einen SerpAPI-Schlüssel (kostenloses Kontingent verfügbar). Aktiviere außerdem "Calculator" — kein API-Schlüssel nötig.
Agenten-Strategie wählen
Unter "Agenten-Strategie" wähle "Function Calling" für GPT-4o oder Claude-Modelle. Wähle "ReAct" für Open-Source-Modelle ohne natives Function Calling.
Modell auswählen
Wähle GPT-4o oder Claude 3.5 Sonnet für beste Agenten-Performance. Diese Modelle verstehen am zuverlässigsten, wann und wie sie Tools verwenden sollen.
Agenten testen
Im Vorschau-Panel, tippe: "Was ist der aktuelle Bitcoin-Kurs in Euro?" — Beobachte, wie der Agent Google Search aufruft, die Ergebnisse liest und eine aktuelle Antwort liefert. Dann: "Wenn ich 0,5 BTC zu diesem Kurs kaufe, was kostet mich das?"
Veröffentlichen
Klicke auf den blauen "Veröffentlichen"-Button. Dein Agent ist jetzt live und über den Share-Link oder die REST-API zugänglich.
Eingebaute Tools für Dify Agenten
Dify enthält eine Bibliothek gebrauchsfertiger Tools. Die meisten benötigen einen kostenlosen oder kostenpflichtigen API-Schlüssel des jeweiligen Anbieters. Hier sind die nützlichsten:
Google Search
Durchsucht Google und liefert die Top-Ergebnisse mit Titeln, Snippets und URLs. Das leistungsstärkste Such-Tool — ideal für aktuelle Nachrichten, Preise, Unternehmensdaten und zeitkritische Informationen.
DuckDuckGo
Datenschutzorientierte Websuche ohne API-Schlüssel. Gut für allgemeine Suchen. Etwas weniger zuverlässig als Google Search für sehr aktuelle Informationen.
Bing Search
Microsofts Suchmaschine über Azure Cognitive Services. Solide Alternative zu SerpAPI mit großzügigem Gratis-Kontingent (1.000 Transaktionen/Monat).
Wikipedia
Durchsucht Wikipedia und gibt den vollständigen Artikeltext zurück. Ideal für sachliches, enzyklopädisches Wissen. Viel zuverlässiger als Web-Suche für stabile Fakten.
Calculator
Wertet mathematische Ausdrücke aus. Verhindert, dass das Modell versucht, Arithmetik im Kopf zu berechnen (LLMs sind bekanntermaßen schlecht in Mathe). Ideal für Preisberechnungen, Prozentsätze und Statistiken.
Code Interpreter
Führt Python-Code in einer sicheren Sandbox aus. Der Agent kann Code schreiben und ausführen, um Daten zu analysieren, Text zu verarbeiten, komplexe Berechnungen durchzuführen oder Dateien zu manipulieren.
Wetter
Gibt aktuelle Wetterbedingungen und Vorhersagen für beliebige Orte zurück. Nützlich für Reise-Agenten, Event-Planung oder standortbezogene Anwendungen.
WolframAlpha
Computationelle Intelligenz — beantwortet Mathe-Probleme, wissenschaftliche Fragen, historische Daten, Einheitenumrechnungen mit höchster Genauigkeit. Hervorragende Ergänzung zur Web-Suche.
Custom Tools: Beliebige APIs verbinden
Die eigentliche Stärke von Dify Agenten liegt darin, dass du jede beliebige REST-API als Custom Tool einbinden kannst. So kann dein Agent mit internen Firmensystemen, SaaS-Tools, Datenbanken oder anderen Diensten mit API interagieren.
Methode 1: OpenAPI-Schema
Hat deine API eine OpenAPI (Swagger) Spezifikation, füge das JSON oder YAML direkt in Dify ein. Es parst automatisch alle Endpunkte, Parameter und Beschreibungen.
- Tools → Custom Tools → Tool erstellen
- "Aus OpenAPI-Schema importieren" auswählen
- OpenAPI JSON/YAML einfügen
- Authentifizierung hinzufügen (API-Key, Bearer-Token usw.)
- Speichern — alle Endpunkte stehen als Tools bereit
Methode 2: Manuelle Definition
Für einfache APIs ohne formale Spezifikation definiere jeden Endpunkt manuell:
- Name: "hole_kundendaten" (wie der Agent es nennt)
- Beschreibung: "Sucht einen Kunden anhand der E-Mail-Adresse" (der Agent liest dies, um zu entscheiden, wann er das Tool nutzt)
- Methode: GET, POST, PUT, DELETE
- URL: Deine Endpunkt-URL mit Parametern
- Parameter: Name, Typ, Beschreibung, Pflicht/Optional
Beispiel: CRM-API-Tool
Tool-Name: hole_kundeninfo
Beschreibung: Ruft Kundendaten aus der CRM-Datenbank
anhand der Kunden-E-Mail ab. Verwende dies,
wenn nach dem Kontostatus eines Kunden gefragt wird.
Methode: GET
URL: https://api.ihrecrm.de/customers?email={{email}}
Parameter:
- email (string, Pflichtfeld): E-Mail des Kunden
Header:
Authorization: Bearer {{api_key}} Einmal konfiguriert, kann dein Agent Fragen beantworten wie "Was ist der Abonnement-Status von [email protected]?" indem er automatisch deine CRM-API aufruft.
Agenten-Strategien: ReAct vs. Function Calling
Dify unterstützt zwei Strategien für das Reasoning und die Tool-Nutzung von Agenten. Die richtige Wahl hängt vom verwendeten LLM ab:
Function Calling
Das Modell versteht nativ, wie es Tools als strukturierte Funktionsaufrufe verwenden soll. Zuverlässiger, effizienter und erzeugt sauberere Reasoning-Ketten.
Beste Modelle:
- GPT-4o, GPT-4 Turbo
- Claude 3.5 Sonnet, Claude 3 Opus
- Gemini 1.5 Pro, Gemini 1.5 Flash
- Mistral Large
ReAct (Reasoning + Acting)
Das Modell schreibt sein Reasoning als Text ("Gedanke: Ich muss X suchen...") gefolgt von Aktionsanweisungen ("Aktion: google_search[X]"). Funktioniert mit jedem Modell, das Anweisungen befolgen kann.
Wann einsetzen:
- Open-Source-Modelle (Llama, Qwen, Mistral 7B)
- Modelle ohne natives Function Calling
- Wenn du das vollständige Reasoning sehen möchtest
Kurzregel
Verwendest du GPT-4o, Claude 3.5+ oder Gemini Pro? → Nimm Function Calling. Verwendest du ein Open-Source-Modell? → Nimm ReAct. Im Zweifelsfall zuerst Function Calling ausprobieren.
Multi-Agenten-Orchestrierung
Für komplexe Aufgaben kannst du mehrere spezialisierte Agenten miteinander verketten. Jeder Agent konzentriert sich auf seine Stärken, und ein Koordinator-Agent leitet die Arbeit zwischen ihnen weiter.
Beispiel: Wettbewerbsanalyse-System
Spezialisierung
Jeder Agent hat einen fokussierten System-Prompt und nur die Tools, die er benötigt. Ein Recherche-Agent bekommt Such-Tools; ein Schreib-Agent bekommt Format-Tools.
Parallele Ausführung
Dify Workflow-Nodes können mehrere Agenten parallel aufrufen. Alle Ergebnisse sammeln und in einem finalen Schritt zusammenführen für schnellere Gesamtausführung.
Iterationskontrolle
Setze maximale Iterationslimits pro Agent, um Endlosschleifen zu verhindern. Ein Koordinator kann fehlgeschlagene Sub-Tasks automatisch wiederholen.
Tool-Isolation
Halte sensible Tools (CRM-Zugriff, Datenbankschreiboperationen) in separaten Agenten mit strengen Zugriffskontrollen. Der öffentlich zugängliche Koordinator berührt nie direkt sensible Systeme.
Häufig gestellte Fragen
Was können Dify KI-Agenten tun?
Dify KI-Agenten können im Web suchen (Google, Bing, DuckDuckGo), Python-Code ausführen, externe APIs aufrufen, Wikipedia lesen, Mathematik berechnen, Wetter prüfen und vieles mehr. Sie entscheiden selbstständig, welche Tools sie für jede Aufgabe verwenden.
Was ist der Unterschied zwischen einem Dify Agent und einem Chatbot?
Ein Dify Chatbot beantwortet Fragen basierend auf seinem Training und deinen Prompts. Ein Dify Agent verwendet aktiv Tools — er kann das Internet durchsuchen, Code ausführen oder APIs aufrufen. Nutze Chatbots für Support, Agenten für Recherche und Automatisierung.
Kann ich einem Dify Agenten eigene Tools hinzufügen?
Ja. Du kannst jede REST-API als Custom Tool hinzufügen, indem du eine OpenAPI-Spezifikation oder manuell Endpunkt, Name, Beschreibung und Parameter angibst. Der Agent nutzt dein Tool, wenn die Aufgabe es erfordert.
Unterstützt Dify Agent mehrstufiges Reasoning?
Ja. Dify Agenten nutzen ReAct (Reasoning + Acting) oder Function Calling. Der Agent denkt Schritt für Schritt, ruft Tools auf, beobachtet Ergebnisse und fährt fort, bis die Aufgabe abgeschlossen ist — ähnlich wie AutoGPT oder LangChain.
Bereit, deinen Dify Agenten zu deployen?
Agenten auf Dify Cloud zu betreiben kostet schnell viele Credits. Auf dem eigenen Server zu hosten gibt dir unbegrenzte Agenten-Läufe zu fixen monatlichen Kosten — ab €3,79/Monat. Wähle Managed Hosting, wenn du keine Wartung möchtest.
Hetzner VPS
Ab €3,79/Monat. Volle Kontrolle, unbegrenzte Agenten-Läufe, keine Nachrichten-Gebühren. Beste Wahl für KI-Agenten mit intensiver Tool-Nutzung.
Hetzner VPS holen →Elestio
Managed Dify Hosting — in 5 Minuten vollständig eingerichtet. Automatische Updates, Backups und SSL inklusive. Ideal, wenn du dich auf den Agenten-Bau konzentrieren möchtest.
Elestio ausprobieren →