Wie du Support mit KI automatisierst: echte Deflection, keine Demo

Support mit KI zu automatisieren ist nicht, einen Chatbot hinzustellen und zu beten. Es ist, zu entscheiden, wie viele Tickets du vernünftig deflectieren kannst, das System zu bauen, das sie deflectiert, und die menschliche Brücke für den Rest zu konstruieren. Erfolg misst sich in echter Deflection, nicht in Klicks.

Echte Deflection vs. aufgeblasene Deflection (wie die Zahlen täuschen)

Wenn dir jemand sagt „wir deflectieren 70% der Tickets", ist die richtige Frage nicht „wow", sondern „wie messt ihr das?". Aufgeblasene Deflection ist die häufigste Falle der Branche — und trivial zu erkennen, wenn du weißt, worauf zu schauen ist:

Aufgeblasene Deflection	Echte Deflection
Konversationen, die der Bot startete	Tickets, die sonst eskaliert wären, aber nicht
Kunden, die aus Schweigen geschlossen haben	Kunden, die die Lösung bestätigt haben
% über alle Interaktionen	% über Tickets, die substantielle Antwort brauchten
Ohne Post-Interaktions-CSAT	Mit Post-Interaktions-CSAT (>4/5)

Die 4 Komponenten: KB, Agent, Routing, Supervision

Wissensbasis (KB). Strukturiert, versioniert, mit Metadaten. Ohne solide KB versagt der Rest.
Agent. Das LLM, das antwortet, mit System Prompt zu Scope, Ton und Grenzen.
Routing. Das System, das entscheidet, wann an einen Menschen eskaliert wird, und ihm den zusammengefassten Kontext mitgibt.
Supervision. Wöchentliche menschliche Prüfung der Grenzfälle + kontinuierliche Iteration von KB und Agent.

Wie der Agent trainiert wird (es ist nicht „du lädst ein PDF hoch")

Den Agenten zu trainieren ist nicht, ein PDF hochzuladen — es ist, ein gutes RAG-System (Retrieval-Augmented Generation) zu bauen, das die relevante Information aus deiner KB holt und dem Modell zur Nutzung mitgibt. Das „Training" im klassischen Sinn (Fine-Tuning) bringt fast nie mehr als ein guter Prompt + gutes RAG.

Strukturiere deine KB in kurze, in sich geschlossene Blöcke mit Metadaten (Thema, Datum, Quelle).
Erzeuge Embeddings dieser Blöcke mit einem passenden Modell (OpenAI ada oder Open-Source-Äquivalent).
Konfiguriere das Retrieval: wie viele Blöcke pro Anfrage, Ähnlichkeitsschwelle, Re-Ranking.
Schreib den System Prompt mit klaren Anweisungen, wie der abgerufene Kontext zu nutzen ist.
Konfiguriere die Eskalation: in welchen Fällen er NICHT antworten und an einen Menschen übergeben muss.

Die Schleife kontinuierlicher Verbesserung

KI-Support ist nicht „aufstellen und schauen, was passiert". Es ist eine wöchentliche Verbesserungsschleife in vier Schritten:

Wöchentliche Prüfung der Grenzfälle. Der menschliche Supervisor analysiert 30-50 zufällige Konversationen und markiert Treffer/Fehler.
KB-Update. Neue oder schlecht beantwortete Fragen werden sauber dokumentiert.
Agent-Tuning. Systemische Fehler werden über Prompt oder Routing korrigiert.
Automatische Evals. Ein Set repräsentativer Inputs läuft nach jeder Änderung, um Regressionen zu finden.

Kosten, SLAs und wann es sich nicht lohnt

Größe	Setup-Kosten	Monatskosten	Sinnvolles Minimalvolumen
KMU Self-Serve	Inklusive	79-149 €/Monat	200+ repetitive Tickets/Monat
KMU Custom	3.000-8.000 €	200-500 €/Monat	500+ Tickets/Monat
Mid-Market	8.000-25.000 €	1.500-5.000 €/Monat	2.000+ Tickets/Monat
Enterprise	Ab 25.000 €	5.000+ €/Monat	10.000+ Tickets/Monat

Häufig gestellte Fragen

Self-Serve, mit deiner FAQ und KB: 24-48h für etwas Antwortendes. Seriöse Version, mit Zendesk/Intercom integriert und auf Ticket-Historie trainiert: 3-6 Wochen bis Produktion. Jeder Anbieter, der dir „Agent in einer Stunde für dein Business trainiert" verspricht, verkauft Demo, kein Produkt.

Der KI-Agent verhandelt NICHT. Punkt. Jeder Versuch, Rabatt, Sonderkonditionen oder Reklamation anzufragen, wird automatisch an einen Menschen mit voller Kontextzusammenfassung eskaliert. Das ist die Hauptregel: Der Agent verwaltet das Vorhersehbare; was kommerzielles Urteil braucht, geht an eine Person. Ohne diese Regel landest du in echten rechtlichen und kommerziellen Problemen.

Ja, besser als gedacht. Moderne LLMs beherrschen Multi-Language nativ: Der Agent erkennt die Kundensprache und antwortet in ihr, ohne dass du zwei KBs pflegen musst. Ausnahme: Sprachen mit wenig Trainingsdaten — dort sinkt die Antwortqualität.