Einen KI-Agent bauen · Guide 5 von 6

Wie du einen KI-Agenten trainierst: Daten, Evals, Governance

Einen KI-Agenten zu trainieren ist nicht „ein PDF hochladen" oder „das Modell fine-tunen". 2026 ist es fast immer, ein gutes RAG-System zu bauen, die Evals zu schreiben, die messen, ob er gut antwortet, und die Schleife zu designen, die auf Basis echter Daten verbessert. Der Rest ist Vokabular, das verwirrt — und Geld kostet.

Technisches Gespräch → KI-Enterprise-Infrastruktur Zurück zum Pillar

Die 4 „Training"-Ebenen: Prompt, RAG, Fine-Tune, Agent Training

Ebene	Was es ist	Wann
Prompt Engineering	Gute Anweisungen schreiben (System-Prompt)	Immer — Basis von allem
RAG	Modell an deine Wissensbasis anbinden	Wenn der Agent spezifische Info von dir nutzen muss
Fine-Tuning	Modell mit deinen Beispielen anpassen	Selten — nur sehr spezifische Fälle
Agent Training	Über den kompletten Agenten mit Evals iterieren	Immer — kontinuierlicher Zyklus

Welches dich betrifft je nach Fall

90% der Fälle: Prompt + RAG + Agent Training. Ohne Fine-Tuning.
Du brauchst sehr spezifischen Ton oder Stil, unerreichbar mit Prompt: erwäge Fine-Tuning auf einem kleinen Modell.
Latenz-/Kosten-Restriktionen: Fine-Tuning auf Llama oder ähnlichem Modell, um schneller und günstiger zu laufen.
Hochspezialisierte Daten (Medizin, Recht): Kombination aus starkem RAG + selektivem Fine-Tuning.

Wie Evals gebaut werden (der Teil, den fast niemand macht)

Evals sind das Stück, das einen seriösen Agenten von einer hübschen Demo trennt. Und fast niemand macht sie. Der Prozess:

Sammle 50-200 repräsentative Inputs der echten Fälle, die der Agent handhaben wird.
Definiere den erwarteten Output für jeden — oder den Bereich akzeptabler Outputs.
Definiere automatische Evaluationskriterien — messbare Metriken (faktische Korrektheit, Format, Abwesenheit von Halluzinationen).
Führe nach jedem Change des Agenten aus (Prompt, RAG-Config, Model). Wenn der Score fällt, wird nicht deployed.
Iteration des Sets — füge Grenzfälle hinzu, die du in Produktion erkennst.

Der kontinuierliche Verbesserungsloop

Produktion erfasst echte Interaktionen mit Feedback (CSAT, erkannte Fehler).
Wöchentliches Review durch Menschen: Identifikation von Fehlermustern.
Aktualisierung der KB / des Prompts / der Config basierend auf dem Gefundenen.
Eval-Ausführung, um zu validieren, dass es keine Regressionen gibt.
Deployment des Changes.
Zurück zu Schritt 1.

Governance und sensible Daten

APIs im Business-Plan. OpenAI API und Anthropic API im Business-Plan trainieren nicht mit deinen Daten. Bestätige es in deiner DPA.
Anonymisierung wo möglich. Muster tragen zum Modell bei; Namen nicht.
Verschlüsselte Logs. Wenn du Konversationen speicherst, verschlüssele mindestens die mit personenbezogenen Daten.
Minimale Retention. Speichere nicht, was du nicht brauchst. Klare Löschpolitik.
Regelmäßige Audits dazu, welche Daten ins Modell wandern und von wo.

Häufig gestellte Fragen

2026, fast nie. Die Basis-Modelle sind so gut und RAG so flexibel, dass 90% der Fälle mit gut gemachtem Prompt + RAG gelöst werden. Fine-Tuning bringt was, wenn: (1) du sehr spezifischen Ton/Stil brauchst, den du per Prompt nicht hinbekommst, (2) du Latenz/Kosten-Constraints hast, die ein kleineres spezialisiertes Modell rechtfertigen. Wenn dir Fine-Tuning als Erstoption angeboten wird, frag, warum nicht RAG.

Mit Evals: ein Set repräsentativer Inputs + erwartete Outputs + automatische Bewertungskriterien. Evals laufen bei jeder Agent-Änderung und geben einen Score. Wenn dein Agent „funktioniert", aber du keine Evals hast, weißt du es nicht — du hast eine Intuition. Der Unterschied zwischen einem seriösen Agenten und einer hübschen Demo ist fast immer, ob Evals existieren oder nicht.

Zum Starten: Promptfoo oder LangSmith. Für seriöse Produktion: Braintrust oder Galileo. Sehr technisches Team und du willst Open-Source: DeepEval. Die Wahl zählt weniger als die Gewohnheit — das Problem ist nicht welches Tool, sondern dass die meisten Teams gar keine Evals machen.

KI-Impact-Plan · kostenlos

Der Guide ist generisch. Dein Plan nicht.

Erzähl uns von deinem Unternehmen und du bekommst eine Diagnose mit Prioritäten, Zahlen und dem, was zuerst gebaut wird. Ohne Sales-Termin, ohne einen Euro zu zahlen.

Lies hier weiter

KI-Agent bauen: der Leitfaden, den du vor dem ersten Prototyp hättest lesen müssen Wie du einen KI-Agenten für den Vertrieb baust (einen echten AI SDR)Wie du einen AI SDR baust: vollständige Architektur des automatisierten Outbounds