Créer un agent IA · Guide 5 sur 6

Comment entraîner un agent IA : données, evals, gouvernance

Entraîner un agent IA n'est pas « uploader un PDF » ni « fine-tuner le modèle ». En 2026, c'est presque toujours construire un bon système de RAG, écrire les evals qui mesurent s'il répond bien, et concevoir la boucle qui améliore sur la base de données réelles. Le reste c'est du vocabulaire qui embrouille — et qui coûte de l'argent.

Discussion technique → Infrastructure IA entreprise Retour au pilier

Les 4 niveaux d'« entraînement » : prompt, RAG, fine-tune, agent training

Niveau	Ce que c'est	Quand
Prompt engineering	Écrire de bonnes instructions (system prompt)	Toujours — base de tout
RAG	Connecter le modèle à ta base de connaissance	Quand l'agent doit utiliser de l'info qui t'est spécifique
Fine-tuning	Ajuster le modèle avec tes exemples	Rarement — uniquement cas très spécifiques
Agent training	Itérer sur l'agent complet avec evals	Toujours — cycle continu

Lequel te concerne selon ton cas

90% des cas : prompt + RAG + agent training. Sans fine-tuning.
Il te faut un ton ou un style très spécifique inatteignable par prompt : envisage le fine-tuning sur un petit modèle.
Contraintes de latence/coût : fine-tuning sur Llama ou modèle similaire pour tourner plus vite et moins cher.
Data très spécialisées (médical, juridique) : combinaison RAG puissant + fine-tuning sélectif.

Comment on construit les evals (la partie que presque personne ne fait)

Les evals, c'est la pièce qui sépare un agent sérieux d'une jolie démo. Et presque personne ne les fait. Le process :

Rassemble 50-200 inputs représentatifs des cas réels que l'agent va gérer.
Définis l'output attendu pour chacun — ou le range d'outputs acceptables.
Définis des critères d'évaluation automatique — métriques mesurables (justesse factuelle, format, absence d'hallucinations).
Exécute après chaque changement de l'agent (prompt, RAG config, model). Si le score chute, on ne déploie pas.
Itération du set — ajoute les cas limites que tu détectes en prod.

La boucle d'amélioration continue

La prod capture les interactions réelles avec feedback (CSAT, erreurs détectées).
Revue hebdomadaire par un humain : identification des patterns d'erreur.
Mise à jour de la KB / du prompt / de la config sur la base de ce qu'on a trouvé.
Exécution des evals pour valider l'absence de régressions.
Déploiement du changement.
Retour à l'étape 1.

Governance et data sensibles

APIs en plan business. L'API d'OpenAI et celle d'Anthropic en plan business ne s'entraînent pas avec ta data. Confirme-le dans ton DPA.
Anonymisation quand c'est possible. Les patterns apportent au modèle ; les noms non.
Logs chiffrés. Si tu gardes des conversations, chiffre au moins celles qui contiennent des données personnelles.
Rétention minimale. Ne garde pas ce dont tu n'as pas besoin. Politique claire de suppression.
Audit régulier de quelles data entrent dans le modèle et d'où.

Questions fréquentes

En 2026, presque jamais. Les modèles de base sont si bons et le RAG est si flexible que 90% des cas se résolvent avec prompt + RAG bien faits. Le fine-tuning sert quand : (1) tu as besoin d'un ton ou style très spécifique que tu n'obtiens pas avec un prompt, (2) tu as des contraintes de latence/coût qui justifient un modèle plus petit spécialisé. Si on te propose le fine-tuning comme première option, demande pourquoi pas RAG.

Avec des evals : un set d'inputs représentatifs + outputs attendus + critères d'évaluation automatique. Les evals s'exécutent à chaque changement de l'agent et donnent un score. Si ton agent « marche » mais que tu n'as pas d'evals, tu ne sais pas — tu as une intuition. La différence entre un agent sérieux et une jolie démo c'est presque toujours qu'il y ait des evals ou pas.

Pour démarrer : Promptfoo ou LangSmith. Pour de la prod sérieuse : Braintrust ou Galileo. Si ton équipe est très technique et que tu veux de l'open-source : DeepEval. Le choix compte moins que l'habitude — le problème ce n'est pas quel outil utiliser, c'est que la plupart des équipes ne font pas d'evals du tout.

Plan d'Impact IA · gratuit

Le guide est générique. Ton plan, non.

Parle-nous de ton entreprise et on te renvoie un diagnostic avec priorités, chiffres et quoi implémenter en premier. Sans rendez-vous commercial, sans payer un euro.

Continue avec celles-ci

Créer un agent IA : le guide que tu aurais dû lire avant le premier prototype Comment créer un agent IA pour les ventes (un vrai AI SDR)Comment créer un AI SDR : architecture complète d'outbound automatisé