Zum Inhalt springen
Implementa.

Pillar-Guide · Einen KI-Agent bauen

KI-Agent bauen: der Leitfaden, den du vor dem ersten Prototyp hättest lesen müssen

Das meiste, was als „KI-Agent" verkauft wird, ist ein Chatbot mit Hut. Ein echter Agent tut drei Dinge, die ein Chatbot nicht tut: Er entscheidet, welches Tool er nutzt, behält Memory zwischen Interaktionen und misst seine eigene Arbeit. Dieser Leitfaden ist da, damit du den Unterschied kennst, bevor du den ersten Prototyp bezahlst.

Was ein KI-Agent wirklich ist (und was ein „Chatbot mit Hut" ist)

Ein KI-Agent ist im strengen technischen Sinn ein System, das ein Sprachmodell mit drei zusätzlichen Fähigkeiten kombiniert: die Fähigkeit, kontextabhängig zu entscheiden, welches Werkzeug zu nutzen ist, persistente Memory zwischen Interaktionen und Mechanismen zur Messung der eigenen Arbeit (Evals). Jedes System, dem alle drei fehlen, ist kein Agent — es ist ein Chatbot. Die Unterscheidung ist nicht semantisch, sie ist operativ: Chatbots antworten, Agenten führen aus.

Der Grund, warum der Markt voll ist mit „Agenten", die Chatbots mit Hut sind, ist kommerziell: Das Wort „Agent" verkauft sich besser. Aber der Unterschied fällt sofort in Produktion auf — ein gut gebauter Chatbot ist nützlich; ein schlecht gebauter Agent ist eine Bombe. Den Unterschied zu kennen, bevor du zahlst, ist die beste Investition, die du gerade machen kannst.

Die drei Agententypen, die im Unternehmen zählen

Nicht alle Agenten sind gleich — drei Kategorien decken 95% der nützlichen Fälle im Unternehmen ab. Sie zu verwechseln führt dazu, das Falsche einzukaufen.

Vertriebsagent (AI SDR, Lead Routing)

Designt für Vertriebsaufgaben: automatisiertes Prospecting, Lead-Qualifizierung, Opportunity-Routing. Der am besten messbare (ROI in generierten Meetings), der am meisten adoptierte von Unternehmen mit langen Verkaufszyklen. Typischer Stack: Domains + Warmup + Scoring + Sequenzen + CRM-Integration.

Operativer Agent (Workforce, interner Assistent)

Designt für interne, repetitive Aufgaben: Incoming-Klassifizierung, Entwurfsgenerierung, Dokumentenverarbeitung. Misst seinen Erfolg in gesparten Stunden/Monat. Erfordert tiefe Integration mit den internen Systemen (ERP, ITSM usw.).

Kundenseitiger Agent (Support, Vertrieb light)

Designt für direkte Kundeninteraktion: Support, FAQs, Meetings vereinbaren. Der sichtbarste und deshalb der mit dem höchsten Reputationsrisiko. Erfordert rigorose Supervision, solides menschliches Eskalieren und CSAT-Metriken ab Tag eins.

Die Minimalarchitektur: LLM, Memory, Werkzeuge, Evals

Ein seriöser Agent besteht aus vier Schichten. Wenn dein Anbieter sie dir nicht auf einer Serviette aufzeichnen kann, baut er keinen Agenten — er verkauft dir ein Etikett.

  1. LLM-Basis — GPT-4 / Claude / Llama, je nach Privatsphäre, Latenz und Kosten.
  2. Memory — Vektordatenbank (Pinecone, Weaviate, pgvector), um Kontext zwischen Interaktionen zu halten + Kurzzeit-Memory in der aktuellen Konversation.
  3. Werkzeuge (Tools) — APIs, Funktionen, Websuche, Verbindung zu deinen Systemen. Der Agent entscheidet, welches er nutzt.
  4. Evals — Set repräsentativer Inputs mit erwarteten Outputs, die nach jedem Change automatisch ausgeführt werden.

Wie man einen Agenten „trainiert" (nein, das ist nicht „ein PDF hochladen")

Der Begriff „Training" ist verworren geworden. 2026 bedeutet „einen Agenten trainieren" selten, das Modell zu fine-tunen — es bedeutet, ein gutes RAG-System (Retrieval-Augmented Generation) zu bauen, einen soliden System-Prompt zu schreiben und die Werkzeuge korrekt zu konfigurieren.

  1. Seriöses Prompt Engineering. Der System-Prompt definiert, wer der Agent ist, was er darf, was nicht, welchen Ton er nutzt und wann er eskaliert. Das am meisten unterschätzte Stück mit dem besten Impact-Kosten-Verhältnis.
  2. RAG über deine Wissensbasis. Strukturiere deine KB in kurzen Blöcken, generiere Embeddings, konfiguriere Retrieval mit Re-Ranking.
  3. Werkzeuge konfigurieren. Für jedes Tool definieren, wann es genutzt wird, welche Parameter es akzeptiert, wie Fehler gehandhabt werden.
  4. Fine-Tuning (nur wenn nötig). Fast nie ist es das. Nur, wenn du einen sehr spezifischen Ton oder Stil brauchst, den der Prompt nicht erreicht, oder wenn Kosten-/Latenz-Restriktionen ein kleineres spezialisiertes Modell rechtfertigen.

Human-in-the-Loop: warum es nicht optional ist

Human-in-the-Loop (HITL) heißt, dass ein Mensch an konkreten Checkpoints im Zyklus des Agenten eingreift. Es ist NICHT „der Mensch beaufsichtigt alles die ganze Zeit" — es ist der Mensch an den Punkten, wo die Kosten eines Fehlers die Kosten einer Pause übersteigen. Ohne HITL an diesen Punkten ist der Agent ein Experiment; mit HITL ist er ein System.

  • Entscheidungen mit hohem Impact (unumkehrbare, bindende Aktionen mit wirtschaftlichen oder rechtlichen Folgen).
  • Niedrige-Konfidenz-Fälle des Modells (wenn die Wahrscheinlichkeit der Antwort unter den Schwellenwert fällt).
  • Erkannte Ausnahmen (Input außerhalb der erwarteten Muster).
  • Periodisches Stichprobenreview der „Routinearbeit", um systemischen Drift zu erkennen.

Was es wirklich kostet, einen Agenten zu bauen und zu betreiben

KostenKMUMid-MarketEnterprise
Technisches Setup3.000-15.000 €15.000-75.000 €75.000-250.000 €+
Monatlicher Betrieb (LLM + Infra)50-500 €500-2.500 €2.500-15.000 €
Menschliche Supervision (Personenzeit)5-15 h/Monat20-50 h/Monat50-200 h/Monat
Monatliche IterationIm Retainer 200-500 €/Monat inkl.1.500-5.000 €/Monat5.000-25.000 €/Monat

Wann JA und wann NEIN einen Agenten bauen

JA Agent bauenNEIN Agent bauen
Hohes, repetitives VolumenNiedriges oder unstetes Volumen
Variabler Input, einfache EntscheidungEinfacher Input, komplexe Entscheidung
Fehlerkosten niedrig oder reversibelFehlerkosten hoch und irreversibel
Mensch verfügbar zur SupervisionNiemand, dem das System gehört
Stabiler Prozess auf 12+ MonateProzess, der gerade verändert wird

Kostenloses Material · PDF

Governance-Checkliste für KI-Agenten in Produktion

Die 4 Pflichtschichten (HITL, Logs, Rollback, Evals) Schritt für Schritt erklärt. Ohne das ist ein Agent kein System — sondern eine Bombe.

Was du bekommst

  • Checkliste der 4 kritischen Komponenten
  • Nutzungsrichtlinien-Template nach Agententyp
  • Qualitätsmetriken pro Aufgabe (mit Schwellenwerten)

Häufig gestellte Fragen

Für einen einfachen nein. Plattformen wie n8n, Make AI, Voiceflow oder OpenAIs Assistants lassen dich funktionsfähige Agenten ohne Code aufsetzen. Für ernsthafte Agenten — die in deine echten Systeme integriert sind, Fehler behandeln und monitort werden — brauchst du jemanden Technischen, nicht zwangsläufig dich. Die Linie zwischen „hübsche Demo" und „Agent, der arbeitet" wird mit Code überschritten.

Ein einfacher Agent (Assistent auf deiner KB, einfacher Support-Chatbot) kann in einer Woche live sein. Ein ernsthafter Agent — mit CRM-Integrationen, Tools, menschlicher Eskalation und Evals — zwischen 6 und 12 Wochen. Jeder Anbieter, der dir „Enterprise-Agent in 3 Tagen" verspricht, verkauft Demo mit Krawatte.

Zum Prototypen: OpenAI Assistants (schnell, einfach). Für No-Code/Low-Code-Produktion: n8n oder Make AI. Für komplexe Orchestrierung: LangChain oder LangGraph (brauchst einen Dev). Die Wahl hängt weniger von der Plattform und mehr davon ab, wer den Agenten täglich betreibt. Fang mit dem Einfachsten an, das deinen Fall abdeckt — du kannst immer hochskalieren.

Vier Stücke: (1) klare Nutzungspolitik — was er darf und was nicht; (2) auditierbare Logs jeder Entscheidung und Aktion; (3) Human-in-the-Loop für kritische Entscheidungen; (4) periodische Verhaltensprüfung (automatische Evals + menschliche Review). Ohne diese vier ist der Agent ein Experiment, kein Produktionssystem.

Hängt vom umgebenden System ab. Gut designt: Der Agent erkennt Unsicherheit, eskaliert an einen Menschen und die Lage löst sich mit wenig Reibung. Schlecht designt: Der Agent führt die falsche Aktion mit vollem Vertrauen aus und du erfährst es, wenn sich ein Kunde beschwert. Die Qualität eines Agenten misst sich nicht, wenn er trifft — sie misst sich, wenn er zweifelt.

Lesen oder direkt produktiv stellen?

Dieser Guide deckt den Denkteil ab. Die Umsetzung — und das Messbare — ist das, wofür wir Geld nehmen.

KI-Agent bauen: der Leitfaden, den du vor dem ersten Prototyp hättest lesen müssen · Implementa