Was ein KI-Agent wirklich ist (und was ein „Chatbot mit Hut" ist)
Ein KI-Agent ist im strengen technischen Sinn ein System, das ein Sprachmodell mit drei zusätzlichen Fähigkeiten kombiniert: die Fähigkeit, kontextabhängig zu entscheiden, welches Werkzeug zu nutzen ist, persistente Memory zwischen Interaktionen und Mechanismen zur Messung der eigenen Arbeit (Evals). Jedes System, dem alle drei fehlen, ist kein Agent — es ist ein Chatbot. Die Unterscheidung ist nicht semantisch, sie ist operativ: Chatbots antworten, Agenten führen aus.
Der Grund, warum der Markt voll ist mit „Agenten", die Chatbots mit Hut sind, ist kommerziell: Das Wort „Agent" verkauft sich besser. Aber der Unterschied fällt sofort in Produktion auf — ein gut gebauter Chatbot ist nützlich; ein schlecht gebauter Agent ist eine Bombe. Den Unterschied zu kennen, bevor du zahlst, ist die beste Investition, die du gerade machen kannst.
Die drei Agententypen, die im Unternehmen zählen
Nicht alle Agenten sind gleich — drei Kategorien decken 95% der nützlichen Fälle im Unternehmen ab. Sie zu verwechseln führt dazu, das Falsche einzukaufen.
Vertriebsagent (AI SDR, Lead Routing)
Designt für Vertriebsaufgaben: automatisiertes Prospecting, Lead-Qualifizierung, Opportunity-Routing. Der am besten messbare (ROI in generierten Meetings), der am meisten adoptierte von Unternehmen mit langen Verkaufszyklen. Typischer Stack: Domains + Warmup + Scoring + Sequenzen + CRM-Integration.
Operativer Agent (Workforce, interner Assistent)
Designt für interne, repetitive Aufgaben: Incoming-Klassifizierung, Entwurfsgenerierung, Dokumentenverarbeitung. Misst seinen Erfolg in gesparten Stunden/Monat. Erfordert tiefe Integration mit den internen Systemen (ERP, ITSM usw.).
Kundenseitiger Agent (Support, Vertrieb light)
Designt für direkte Kundeninteraktion: Support, FAQs, Meetings vereinbaren. Der sichtbarste und deshalb der mit dem höchsten Reputationsrisiko. Erfordert rigorose Supervision, solides menschliches Eskalieren und CSAT-Metriken ab Tag eins.
Die Minimalarchitektur: LLM, Memory, Werkzeuge, Evals
Ein seriöser Agent besteht aus vier Schichten. Wenn dein Anbieter sie dir nicht auf einer Serviette aufzeichnen kann, baut er keinen Agenten — er verkauft dir ein Etikett.
- LLM-Basis — GPT-4 / Claude / Llama, je nach Privatsphäre, Latenz und Kosten.
- Memory — Vektordatenbank (Pinecone, Weaviate, pgvector), um Kontext zwischen Interaktionen zu halten + Kurzzeit-Memory in der aktuellen Konversation.
- Werkzeuge (Tools) — APIs, Funktionen, Websuche, Verbindung zu deinen Systemen. Der Agent entscheidet, welches er nutzt.
- Evals — Set repräsentativer Inputs mit erwarteten Outputs, die nach jedem Change automatisch ausgeführt werden.
Wie man einen Agenten „trainiert" (nein, das ist nicht „ein PDF hochladen")
Der Begriff „Training" ist verworren geworden. 2026 bedeutet „einen Agenten trainieren" selten, das Modell zu fine-tunen — es bedeutet, ein gutes RAG-System (Retrieval-Augmented Generation) zu bauen, einen soliden System-Prompt zu schreiben und die Werkzeuge korrekt zu konfigurieren.
- Seriöses Prompt Engineering. Der System-Prompt definiert, wer der Agent ist, was er darf, was nicht, welchen Ton er nutzt und wann er eskaliert. Das am meisten unterschätzte Stück mit dem besten Impact-Kosten-Verhältnis.
- RAG über deine Wissensbasis. Strukturiere deine KB in kurzen Blöcken, generiere Embeddings, konfiguriere Retrieval mit Re-Ranking.
- Werkzeuge konfigurieren. Für jedes Tool definieren, wann es genutzt wird, welche Parameter es akzeptiert, wie Fehler gehandhabt werden.
- Fine-Tuning (nur wenn nötig). Fast nie ist es das. Nur, wenn du einen sehr spezifischen Ton oder Stil brauchst, den der Prompt nicht erreicht, oder wenn Kosten-/Latenz-Restriktionen ein kleineres spezialisiertes Modell rechtfertigen.
Human-in-the-Loop: warum es nicht optional ist
Human-in-the-Loop (HITL) heißt, dass ein Mensch an konkreten Checkpoints im Zyklus des Agenten eingreift. Es ist NICHT „der Mensch beaufsichtigt alles die ganze Zeit" — es ist der Mensch an den Punkten, wo die Kosten eines Fehlers die Kosten einer Pause übersteigen. Ohne HITL an diesen Punkten ist der Agent ein Experiment; mit HITL ist er ein System.
- Entscheidungen mit hohem Impact (unumkehrbare, bindende Aktionen mit wirtschaftlichen oder rechtlichen Folgen).
- Niedrige-Konfidenz-Fälle des Modells (wenn die Wahrscheinlichkeit der Antwort unter den Schwellenwert fällt).
- Erkannte Ausnahmen (Input außerhalb der erwarteten Muster).
- Periodisches Stichprobenreview der „Routinearbeit", um systemischen Drift zu erkennen.
Was es wirklich kostet, einen Agenten zu bauen und zu betreiben
| Kosten | KMU | Mid-Market | Enterprise |
|---|---|---|---|
| Technisches Setup | 3.000-15.000 € | 15.000-75.000 € | 75.000-250.000 €+ |
| Monatlicher Betrieb (LLM + Infra) | 50-500 € | 500-2.500 € | 2.500-15.000 € |
| Menschliche Supervision (Personenzeit) | 5-15 h/Monat | 20-50 h/Monat | 50-200 h/Monat |
| Monatliche Iteration | Im Retainer 200-500 €/Monat inkl. | 1.500-5.000 €/Monat | 5.000-25.000 €/Monat |
Wann JA und wann NEIN einen Agenten bauen
| JA Agent bauen | NEIN Agent bauen |
|---|---|
| Hohes, repetitives Volumen | Niedriges oder unstetes Volumen |
| Variabler Input, einfache Entscheidung | Einfacher Input, komplexe Entscheidung |
| Fehlerkosten niedrig oder reversibel | Fehlerkosten hoch und irreversibel |
| Mensch verfügbar zur Supervision | Niemand, dem das System gehört |
| Stabiler Prozess auf 12+ Monate | Prozess, der gerade verändert wird |
Kostenloses Material · PDF
Governance-Checkliste für KI-Agenten in Produktion
Die 4 Pflichtschichten (HITL, Logs, Rollback, Evals) Schritt für Schritt erklärt. Ohne das ist ein Agent kein System — sondern eine Bombe.
Was du bekommst
- Checkliste der 4 kritischen Komponenten
- Nutzungsrichtlinien-Template nach Agententyp
- Qualitätsmetriken pro Aufgabe (mit Schwellenwerten)