Zum Inhalt springen
Implementa.

Einen KI-Agent bauen · Guide 5 von 6

Wie du einen KI-Agenten trainierst: Daten, Evals, Governance

Einen KI-Agenten zu trainieren ist nicht „ein PDF hochladen" oder „das Modell fine-tunen". 2026 ist es fast immer, ein gutes RAG-System zu bauen, die Evals zu schreiben, die messen, ob er gut antwortet, und die Schleife zu designen, die auf Basis echter Daten verbessert. Der Rest ist Vokabular, das verwirrt — und Geld kostet.

Die 4 „Training"-Ebenen: Prompt, RAG, Fine-Tune, Agent Training

EbeneWas es istWann
Prompt EngineeringGute Anweisungen schreiben (System-Prompt)Immer — Basis von allem
RAGModell an deine Wissensbasis anbindenWenn der Agent spezifische Info von dir nutzen muss
Fine-TuningModell mit deinen Beispielen anpassenSelten — nur sehr spezifische Fälle
Agent TrainingÜber den kompletten Agenten mit Evals iterierenImmer — kontinuierlicher Zyklus

Welches dich betrifft je nach Fall

  • 90% der Fälle: Prompt + RAG + Agent Training. Ohne Fine-Tuning.
  • Du brauchst sehr spezifischen Ton oder Stil, unerreichbar mit Prompt: erwäge Fine-Tuning auf einem kleinen Modell.
  • Latenz-/Kosten-Restriktionen: Fine-Tuning auf Llama oder ähnlichem Modell, um schneller und günstiger zu laufen.
  • Hochspezialisierte Daten (Medizin, Recht): Kombination aus starkem RAG + selektivem Fine-Tuning.

Wie Evals gebaut werden (der Teil, den fast niemand macht)

Evals sind das Stück, das einen seriösen Agenten von einer hübschen Demo trennt. Und fast niemand macht sie. Der Prozess:

  1. Sammle 50-200 repräsentative Inputs der echten Fälle, die der Agent handhaben wird.
  2. Definiere den erwarteten Output für jeden — oder den Bereich akzeptabler Outputs.
  3. Definiere automatische Evaluationskriterien — messbare Metriken (faktische Korrektheit, Format, Abwesenheit von Halluzinationen).
  4. Führe nach jedem Change des Agenten aus (Prompt, RAG-Config, Model). Wenn der Score fällt, wird nicht deployed.
  5. Iteration des Sets — füge Grenzfälle hinzu, die du in Produktion erkennst.

Der kontinuierliche Verbesserungsloop

  1. Produktion erfasst echte Interaktionen mit Feedback (CSAT, erkannte Fehler).
  2. Wöchentliches Review durch Menschen: Identifikation von Fehlermustern.
  3. Aktualisierung der KB / des Prompts / der Config basierend auf dem Gefundenen.
  4. Eval-Ausführung, um zu validieren, dass es keine Regressionen gibt.
  5. Deployment des Changes.
  6. Zurück zu Schritt 1.

Governance und sensible Daten

  • APIs im Business-Plan. OpenAI API und Anthropic API im Business-Plan trainieren nicht mit deinen Daten. Bestätige es in deiner DPA.
  • Anonymisierung wo möglich. Muster tragen zum Modell bei; Namen nicht.
  • Verschlüsselte Logs. Wenn du Konversationen speicherst, verschlüssele mindestens die mit personenbezogenen Daten.
  • Minimale Retention. Speichere nicht, was du nicht brauchst. Klare Löschpolitik.
  • Regelmäßige Audits dazu, welche Daten ins Modell wandern und von wo.

Häufig gestellte Fragen

2026, fast nie. Die Basis-Modelle sind so gut und RAG so flexibel, dass 90% der Fälle mit gut gemachtem Prompt + RAG gelöst werden. Fine-Tuning bringt was, wenn: (1) du sehr spezifischen Ton/Stil brauchst, den du per Prompt nicht hinbekommst, (2) du Latenz/Kosten-Constraints hast, die ein kleineres spezialisiertes Modell rechtfertigen. Wenn dir Fine-Tuning als Erstoption angeboten wird, frag, warum nicht RAG.

Mit Evals: ein Set repräsentativer Inputs + erwartete Outputs + automatische Bewertungskriterien. Evals laufen bei jeder Agent-Änderung und geben einen Score. Wenn dein Agent „funktioniert", aber du keine Evals hast, weißt du es nicht — du hast eine Intuition. Der Unterschied zwischen einem seriösen Agenten und einer hübschen Demo ist fast immer, ob Evals existieren oder nicht.

Zum Starten: Promptfoo oder LangSmith. Für seriöse Produktion: Braintrust oder Galileo. Sehr technisches Team und du willst Open-Source: DeepEval. Die Wahl zählt weniger als die Gewohnheit — das Problem ist nicht welches Tool, sondern dass die meisten Teams gar keine Evals machen.

Sollen wir über deinen konkreten Fall sprechen?

Ein 30-minütiges technisches Gespräch. Wir sagen dir, was passt, was nicht, und einen ungefähren Preis.

Wie du einen KI-Agenten trainierst: Daten, Evals, Governance · Implementa