Les 4 niveaux d'« entraînement » : prompt, RAG, fine-tune, agent training
| Niveau | Ce que c'est | Quand |
|---|---|---|
| Prompt engineering | Écrire de bonnes instructions (system prompt) | Toujours — base de tout |
| RAG | Connecter le modèle à ta base de connaissance | Quand l'agent doit utiliser de l'info qui t'est spécifique |
| Fine-tuning | Ajuster le modèle avec tes exemples | Rarement — uniquement cas très spécifiques |
| Agent training | Itérer sur l'agent complet avec evals | Toujours — cycle continu |
Lequel te concerne selon ton cas
- 90% des cas : prompt + RAG + agent training. Sans fine-tuning.
- Il te faut un ton ou un style très spécifique inatteignable par prompt : envisage le fine-tuning sur un petit modèle.
- Contraintes de latence/coût : fine-tuning sur Llama ou modèle similaire pour tourner plus vite et moins cher.
- Data très spécialisées (médical, juridique) : combinaison RAG puissant + fine-tuning sélectif.
Comment on construit les evals (la partie que presque personne ne fait)
Les evals, c'est la pièce qui sépare un agent sérieux d'une jolie démo. Et presque personne ne les fait. Le process :
- Rassemble 50-200 inputs représentatifs des cas réels que l'agent va gérer.
- Définis l'output attendu pour chacun — ou le range d'outputs acceptables.
- Définis des critères d'évaluation automatique — métriques mesurables (justesse factuelle, format, absence d'hallucinations).
- Exécute après chaque changement de l'agent (prompt, RAG config, model). Si le score chute, on ne déploie pas.
- Itération du set — ajoute les cas limites que tu détectes en prod.
La boucle d'amélioration continue
- La prod capture les interactions réelles avec feedback (CSAT, erreurs détectées).
- Revue hebdomadaire par un humain : identification des patterns d'erreur.
- Mise à jour de la KB / du prompt / de la config sur la base de ce qu'on a trouvé.
- Exécution des evals pour valider l'absence de régressions.
- Déploiement du changement.
- Retour à l'étape 1.
Governance et data sensibles
- APIs en plan business. L'API d'OpenAI et celle d'Anthropic en plan business ne s'entraînent pas avec ta data. Confirme-le dans ton DPA.
- Anonymisation quand c'est possible. Les patterns apportent au modèle ; les noms non.
- Logs chiffrés. Si tu gardes des conversations, chiffre au moins celles qui contiennent des données personnelles.
- Rétention minimale. Ne garde pas ce dont tu n'as pas besoin. Politique claire de suppression.
- Audit régulier de quelles data entrent dans le modèle et d'où.