Echte Deflection vs. aufgeblasene Deflection (wie die Zahlen täuschen)
Wenn dir jemand sagt „wir deflectieren 70% der Tickets", ist die richtige Frage nicht „wow", sondern „wie messt ihr das?". Aufgeblasene Deflection ist die häufigste Falle der Branche — und trivial zu erkennen, wenn du weißt, worauf zu schauen ist:
| Aufgeblasene Deflection | Echte Deflection |
|---|---|
| Konversationen, die der Bot startete | Tickets, die sonst eskaliert wären, aber nicht |
| Kunden, die aus Schweigen geschlossen haben | Kunden, die die Lösung bestätigt haben |
| % über alle Interaktionen | % über Tickets, die substantielle Antwort brauchten |
| Ohne Post-Interaktions-CSAT | Mit Post-Interaktions-CSAT (>4/5) |
Die 4 Komponenten: KB, Agent, Routing, Supervision
- Wissensbasis (KB). Strukturiert, versioniert, mit Metadaten. Ohne solide KB versagt der Rest.
- Agent. Das LLM, das antwortet, mit System Prompt zu Scope, Ton und Grenzen.
- Routing. Das System, das entscheidet, wann an einen Menschen eskaliert wird, und ihm den zusammengefassten Kontext mitgibt.
- Supervision. Wöchentliche menschliche Prüfung der Grenzfälle + kontinuierliche Iteration von KB und Agent.
Wie der Agent trainiert wird (es ist nicht „du lädst ein PDF hoch")
Den Agenten zu trainieren ist nicht, ein PDF hochzuladen — es ist, ein gutes RAG-System (Retrieval-Augmented Generation) zu bauen, das die relevante Information aus deiner KB holt und dem Modell zur Nutzung mitgibt. Das „Training" im klassischen Sinn (Fine-Tuning) bringt fast nie mehr als ein guter Prompt + gutes RAG.
- Strukturiere deine KB in kurze, in sich geschlossene Blöcke mit Metadaten (Thema, Datum, Quelle).
- Erzeuge Embeddings dieser Blöcke mit einem passenden Modell (OpenAI ada oder Open-Source-Äquivalent).
- Konfiguriere das Retrieval: wie viele Blöcke pro Anfrage, Ähnlichkeitsschwelle, Re-Ranking.
- Schreib den System Prompt mit klaren Anweisungen, wie der abgerufene Kontext zu nutzen ist.
- Konfiguriere die Eskalation: in welchen Fällen er NICHT antworten und an einen Menschen übergeben muss.
Die Schleife kontinuierlicher Verbesserung
KI-Support ist nicht „aufstellen und schauen, was passiert". Es ist eine wöchentliche Verbesserungsschleife in vier Schritten:
- Wöchentliche Prüfung der Grenzfälle. Der menschliche Supervisor analysiert 30-50 zufällige Konversationen und markiert Treffer/Fehler.
- KB-Update. Neue oder schlecht beantwortete Fragen werden sauber dokumentiert.
- Agent-Tuning. Systemische Fehler werden über Prompt oder Routing korrigiert.
- Automatische Evals. Ein Set repräsentativer Inputs läuft nach jeder Änderung, um Regressionen zu finden.
Kosten, SLAs und wann es sich nicht lohnt
| Größe | Setup-Kosten | Monatskosten | Sinnvolles Minimalvolumen |
|---|---|---|---|
| KMU Self-Serve | Inklusive | 79-149 €/Monat | 200+ repetitive Tickets/Monat |
| KMU Custom | 3.000-8.000 € | 200-500 €/Monat | 500+ Tickets/Monat |
| Mid-Market | 8.000-25.000 € | 1.500-5.000 €/Monat | 2.000+ Tickets/Monat |
| Enterprise | Ab 25.000 € | 5.000+ €/Monat | 10.000+ Tickets/Monat |