Aller au contenu
Implementa.

Créer un agent IA · Guide 5 sur 6

Comment entraîner un agent IA : données, evals, gouvernance

Entraîner un agent IA n'est pas « uploader un PDF » ni « fine-tuner le modèle ». En 2026, c'est presque toujours construire un bon système de RAG, écrire les evals qui mesurent s'il répond bien, et concevoir la boucle qui améliore sur la base de données réelles. Le reste c'est du vocabulaire qui embrouille — et qui coûte de l'argent.

Les 4 niveaux d'« entraînement » : prompt, RAG, fine-tune, agent training

NiveauCe que c'estQuand
Prompt engineeringÉcrire de bonnes instructions (system prompt)Toujours — base de tout
RAGConnecter le modèle à ta base de connaissanceQuand l'agent doit utiliser de l'info qui t'est spécifique
Fine-tuningAjuster le modèle avec tes exemplesRarement — uniquement cas très spécifiques
Agent trainingItérer sur l'agent complet avec evalsToujours — cycle continu

Lequel te concerne selon ton cas

  • 90% des cas : prompt + RAG + agent training. Sans fine-tuning.
  • Il te faut un ton ou un style très spécifique inatteignable par prompt : envisage le fine-tuning sur un petit modèle.
  • Contraintes de latence/coût : fine-tuning sur Llama ou modèle similaire pour tourner plus vite et moins cher.
  • Data très spécialisées (médical, juridique) : combinaison RAG puissant + fine-tuning sélectif.

Comment on construit les evals (la partie que presque personne ne fait)

Les evals, c'est la pièce qui sépare un agent sérieux d'une jolie démo. Et presque personne ne les fait. Le process :

  1. Rassemble 50-200 inputs représentatifs des cas réels que l'agent va gérer.
  2. Définis l'output attendu pour chacun — ou le range d'outputs acceptables.
  3. Définis des critères d'évaluation automatique — métriques mesurables (justesse factuelle, format, absence d'hallucinations).
  4. Exécute après chaque changement de l'agent (prompt, RAG config, model). Si le score chute, on ne déploie pas.
  5. Itération du set — ajoute les cas limites que tu détectes en prod.

La boucle d'amélioration continue

  1. La prod capture les interactions réelles avec feedback (CSAT, erreurs détectées).
  2. Revue hebdomadaire par un humain : identification des patterns d'erreur.
  3. Mise à jour de la KB / du prompt / de la config sur la base de ce qu'on a trouvé.
  4. Exécution des evals pour valider l'absence de régressions.
  5. Déploiement du changement.
  6. Retour à l'étape 1.

Governance et data sensibles

  • APIs en plan business. L'API d'OpenAI et celle d'Anthropic en plan business ne s'entraînent pas avec ta data. Confirme-le dans ton DPA.
  • Anonymisation quand c'est possible. Les patterns apportent au modèle ; les noms non.
  • Logs chiffrés. Si tu gardes des conversations, chiffre au moins celles qui contiennent des données personnelles.
  • Rétention minimale. Ne garde pas ce dont tu n'as pas besoin. Politique claire de suppression.
  • Audit régulier de quelles data entrent dans le modèle et d'où.

Questions fréquentes

En 2026, presque jamais. Les modèles de base sont si bons et le RAG est si flexible que 90% des cas se résolvent avec prompt + RAG bien faits. Le fine-tuning sert quand : (1) tu as besoin d'un ton ou style très spécifique que tu n'obtiens pas avec un prompt, (2) tu as des contraintes de latence/coût qui justifient un modèle plus petit spécialisé. Si on te propose le fine-tuning comme première option, demande pourquoi pas RAG.

Avec des evals : un set d'inputs représentatifs + outputs attendus + critères d'évaluation automatique. Les evals s'exécutent à chaque changement de l'agent et donnent un score. Si ton agent « marche » mais que tu n'as pas d'evals, tu ne sais pas — tu as une intuition. La différence entre un agent sérieux et une jolie démo c'est presque toujours qu'il y ait des evals ou pas.

Pour démarrer : Promptfoo ou LangSmith. Pour de la prod sérieuse : Braintrust ou Galileo. Si ton équipe est très technique et que tu veux de l'open-source : DeepEval. Le choix compte moins que l'habitude — le problème ce n'est pas quel outil utiliser, c'est que la plupart des équipes ne font pas d'evals du tout.

On parle de ton cas concret ?

Une discussion technique de 30 minutes. On te dit ce qui colle, ce qui ne colle pas et le prix approximatif.

Comment entraîner un agent IA : données, evals, gouvernance · Implementa