Déflexion réelle vs. déflexion gonflée (comment on te roule sur les chiffres)
Quand on te dit « on défléchit 70% des tickets », la bonne question n'est pas « ah génial », c'est « comment vous le mesurez ». La déflexion gonflée est le piège le plus courant du secteur — et il est trivial à détecter si tu sais quoi chercher :
| Déflexion gonflée | Déflexion réelle |
|---|---|
| Conversations que le bot a initiées | Tickets qui auraient escaladé et qui ne l'ont pas fait |
| Clients qui ont fermé par silence | Clients qui ont confirmé la résolution |
| % sur toutes les interactions | % sur les tickets qui demandaient une réponse de fond |
| Sans CSAT post-interaction | Avec CSAT post-interaction (>4/5) |
Les 4 composants : KB, agent, routing, supervision
- Base de connaissance (KB). Structurée, versionnée, avec métadonnées. Sans KB solide, tout le reste casse.
- Agent. Le LLM qui répond, avec un system prompt clair sur la portée, le ton et les limites.
- Routing. Le système qui décide quand escalader à humain et lui transmet le contexte résumé.
- Supervision. Revue humaine hebdo des cas limites + itération continue de la KB et de l'agent.
Comment on entraîne l'agent (ce n'est pas « tu uploades un PDF »)
Entraîner l'agent, ce n'est pas uploader un PDF — c'est construire un bon système de RAG (Retrieval-Augmented Generation) qui récupère l'info pertinente de ta KB et la passe au modèle pour qu'il l'utilise. L'« entraînement » au sens classique (fine-tuning) n'apporte presque jamais plus qu'un bon prompt + un bon RAG.
- Structure ta KB en blocs courts et autonomes avec métadonnées (sujet, date, source).
- Crée les embeddings de ces blocs avec un modèle adapté (OpenAI ada ou équivalent open-source).
- Configure le retrieval : combien de blocs récupérer par requête, seuil de similarité, re-ranking.
- Écris le system prompt avec des instructions claires sur l'usage du contexte récupéré.
- Configure l'escalade : dans quels cas il NE doit PAS répondre et doit passer à humain.
La boucle d'amélioration continue
Le support IA, ce n'est pas « tu le montes et on verra ». C'est une boucle hebdo d'amélioration en quatre étapes :
- Revue hebdo des cas limites. Le superviseur humain analyse 30-50 conversations aléatoires et marque hits/erreurs.
- Mise à jour de la KB. Les questions nouvelles ou mal répondues sont documentées correctement.
- Ajustement de l'agent. Les erreurs systémiques se corrigent en touchant au prompt ou au routing.
- Evals automatiques. Un set d'inputs représentatifs s'exécute après chaque changement pour détecter les régressions.
Coûts, SLAs et quand ça ne vaut pas la peine
| Taille | Coût setup | Coût mensuel | Volume minimum raisonnable |
|---|---|---|---|
| PME self-serve | Inclus | 79-149 €/mois | 200+ tickets/mois répétitifs |
| PME custom | 3.000-8.000 € | 200-500 €/mois | 500+ tickets/mois |
| Mid-market | 8.000-25.000 € | 1.500-5.000 €/mois | 2.000+ tickets/mois |
| Enterprise | À partir de 25.000 € | 5.000+ €/mois | 10.000+ tickets/mois |