Los 4 niveles de "entrenamiento": prompt, RAG, fine-tune, agent training
| Nivel | Qué es | Cuándo |
|---|---|---|
| Prompt engineering | Escribir buenas instrucciones (system prompt) | Siempre — base de todo |
| RAG | Conectar al modelo a tu base de conocimiento | Cuando el agente debe usar info específica tuya |
| Fine-tuning | Ajustar el modelo con tus ejemplos | Raramente — solo casos muy específicos |
| Agent training | Iterar sobre el agente completo con evals | Siempre — ciclo continuo |
Cuál te toca según tu caso
- 90% de casos: prompt + RAG + agent training. Sin fine-tuning.
- Necesitas tono o estilo muy específico inalcanzable con prompt: considera fine-tuning sobre un modelo pequeño.
- Restricciones de latencia/coste: fine-tuning sobre Llama o modelo similar para correr más rápido y más barato.
- Datos altamente especializados (medicina, legal): combinación de RAG potente + fine-tuning selectivo.
Cómo se construyen las evals (la parte que casi nadie hace)
Las evals son la pieza que separa un agente serio de una demo bonita. Y casi nadie las hace. El proceso:
- Recopila 50-200 inputs representativos de los casos reales que el agente va a manejar.
- Define el output esperado para cada uno — o el rango de outputs aceptables.
- Define criterios de evaluación automática — métricas medibles (correctitud factual, formato, ausencia de alucinaciones).
- Ejecuta tras cada cambio del agente (prompt, RAG config, model). Si la puntuación cae, no se despliega.
- Iteración del set — añade casos límite que vayas detectando en producción.
El bucle de mejora continua
- Producción captura interacciones reales con feedback (CSAT, errores detectados).
- Revisión semanal por humano: identificación de patrones de error.
- Actualización del KB / prompt / config basada en lo encontrado.
- Ejecución de evals para validar que no hay regresiones.
- Despliegue del cambio.
- Vuelta al paso 1.
Governance y datos sensibles
- APIs en plan business. OpenAI API y Anthropic API en plan business no entrenan con tus datos. Confírmalo en tu DPA.
- Anonimización cuando se pueda. Los patrones aportan al modelo; los nombres no.
- Logs cifrados. Si guardas conversaciones, ciframos al menos las que contengan datos personales.
- Retención mínima. No guardes lo que no necesitas. Política clara de borrado.
- Auditoría regular de qué datos entran al modelo y desde dónde.