Comment automatiser le support avec l'IA : déflexion réelle, pas démo

Automatiser le support avec l'IA, ce n'est pas monter un chatbot et prier. C'est décider combien de tickets tu peux raisonnablement défléchir, monter le système qui les défléchit et construire le pont humain pour le reste. Le succès se mesure en déflexion réelle, pas en clics.

Déflexion réelle vs. déflexion gonflée (comment on te roule sur les chiffres)

Quand on te dit « on défléchit 70% des tickets », la bonne question n'est pas « ah génial », c'est « comment vous le mesurez ». La déflexion gonflée est le piège le plus courant du secteur — et il est trivial à détecter si tu sais quoi chercher :

Déflexion gonflée	Déflexion réelle
Conversations que le bot a initiées	Tickets qui auraient escaladé et qui ne l'ont pas fait
Clients qui ont fermé par silence	Clients qui ont confirmé la résolution
% sur toutes les interactions	% sur les tickets qui demandaient une réponse de fond
Sans CSAT post-interaction	Avec CSAT post-interaction (>4/5)

Les 4 composants : KB, agent, routing, supervision

Base de connaissance (KB). Structurée, versionnée, avec métadonnées. Sans KB solide, tout le reste casse.
Agent. Le LLM qui répond, avec un system prompt clair sur la portée, le ton et les limites.
Routing. Le système qui décide quand escalader à humain et lui transmet le contexte résumé.
Supervision. Revue humaine hebdo des cas limites + itération continue de la KB et de l'agent.

Comment on entraîne l'agent (ce n'est pas « tu uploades un PDF »)

Entraîner l'agent, ce n'est pas uploader un PDF — c'est construire un bon système de RAG (Retrieval-Augmented Generation) qui récupère l'info pertinente de ta KB et la passe au modèle pour qu'il l'utilise. L'« entraînement » au sens classique (fine-tuning) n'apporte presque jamais plus qu'un bon prompt + un bon RAG.

Structure ta KB en blocs courts et autonomes avec métadonnées (sujet, date, source).
Crée les embeddings de ces blocs avec un modèle adapté (OpenAI ada ou équivalent open-source).
Configure le retrieval : combien de blocs récupérer par requête, seuil de similarité, re-ranking.
Écris le system prompt avec des instructions claires sur l'usage du contexte récupéré.
Configure l'escalade : dans quels cas il NE doit PAS répondre et doit passer à humain.

La boucle d'amélioration continue

Le support IA, ce n'est pas « tu le montes et on verra ». C'est une boucle hebdo d'amélioration en quatre étapes :

Revue hebdo des cas limites. Le superviseur humain analyse 30-50 conversations aléatoires et marque hits/erreurs.
Mise à jour de la KB. Les questions nouvelles ou mal répondues sont documentées correctement.
Ajustement de l'agent. Les erreurs systémiques se corrigent en touchant au prompt ou au routing.
Evals automatiques. Un set d'inputs représentatifs s'exécute après chaque changement pour détecter les régressions.

Coûts, SLAs et quand ça ne vaut pas la peine

Taille	Coût setup	Coût mensuel	Volume minimum raisonnable
PME self-serve	Inclus	79-149 €/mois	200+ tickets/mois répétitifs
PME custom	3.000-8.000 €	200-500 €/mois	500+ tickets/mois
Mid-market	8.000-25.000 €	1.500-5.000 €/mois	2.000+ tickets/mois
Enterprise	À partir de 25.000 €	5.000+ €/mois	10.000+ tickets/mois

Questions fréquentes

Self-serve, avec ta FAQ et ta KB : 24-48h pour avoir quelque chose qui répond. Version sérieuse, intégrée avec Zendesk/Intercom et entraînée sur l'historique des tickets : 3-6 semaines jusqu'à la prod. Tout fournisseur qui te promet « agent entraîné pour ton business en une heure » te vend une démo, pas un produit.

L'agent IA NE négocie pas. Point. Toute tentative de demander réduction, conditions spéciales ou réclamation s'escalade automatiquement à un humain avec tout le contexte résumé. C'est la règle principale : l'agent gère le prévisible ; ce qui demande un critère commercial passe à une personne. Sans cette règle, tu te mets dans des emmerdes légales et commerciales réelles.

Oui, mieux qu'on ne le pense. Les LLM modernes gèrent le multi-langue nativement : l'agent détecte la langue du client et répond dans la même, sans que tu aies à maintenir deux KB séparées. Exception : les langues à faible présence dans les données d'entraînement — la qualité des réponses baisse là.