McKinsey dit que 73 % des grandes entreprises sont « en train d'implémenter de l'IA ». La réalité, c'est que presque personne n'a un agent qui tourne avec un SLA en production. Voici les 7 antipatterns qu'on voit se répéter dans chaque pilote zombie.
1. Commencer par la techno, pas par le process
Le comité de direction décide « il nous faut des agents IA » avant d'identifier quel process concret va s'améliorer. Résultat : 6 mois de POC avec LangChain sans savoir quelle métrique devrait bouger.
2. Construire le premier agent comme un monolithe
Des équipes qui conçoivent « un agent » qui fait 14 choses différentes. Impossible à maintenir, impossible à débugger, impossible à évaluer. Chaque changement casse autre chose.
Le fix : chaque agent fait UNE chose bien. Tu les orchestres avec une couche fine au-dessus.
3. Pas d'evals dès le jour 1
Sans dataset d'évaluation avec des critères clairs, tu ne sais pas si un changement de prompt améliore ou empire les choses. Tu navigues à vue.
Le fix : 30-50 exemples réels avec réponse attendue, automatisés en CI. Chaque changement se mesure contre cette baseline.
4. Utiliser le modèle le plus cher parce que « c'est mieux »
GPT-4o pour des tâches que Claude Haiku résout aussi bien à 1/10 du prix. La facture explose, la marge s'évapore.
Le fix : routing entre modèles par type de tâche. 80 % des queries vers le modèle pas cher ; les 20 % complexes vers le cher.
5. Sans observability = sans avenir
Ne pas savoir quel pourcentage de réponses l'agent « rejette », ce qui se passe avec les timeouts, ce que coûte chaque interaction. Si tu ne le mesures pas, tu ne peux pas le gouverner.
Le fix : Langfuse, Helicone ou équivalent dès le premier commit. Coût, latence, taux d'erreur, qualité — tout dans un seul dashboard.
6. Faire confiance à l'output sans guardrails
L'agent peut dire n'importe quoi au client. N'importe quoi. Sans validation structurée, les hallucinations arrivent en production et on les découvre quand le client réclame.
Le fix : structured outputs dès que possible + validation par schéma + fallback humain quand l'incertitude est élevée.
7. Le lancer et l'oublier
L'organisation fête le « go live » et démantèle l'équipe. 3 mois plus tard, l'agent donne des réponses obsolètes, le coût par token a grimpé de 40 %, et personne ne sait même comment déployer une amélioration. Pilote zombie type.
Le fix : opération continue avec review trimestrielle. C'est un système vivant, pas un projet qui se ferme.