Saltar al contenido
Implementa.

Crear un agente IA · Guía 5 de 6

Cómo entrenar un agente IA: datos, evals, governance

Entrenar un agente IA no es "subir un PDF" ni "fine-tunear el modelo". En 2026, casi siempre es construir un buen sistema de RAG, escribir las evals que miden si responde bien, y diseñar el bucle que mejora basado en datos reales. Lo demás es vocabulario que confunde — y que cuesta dinero.

Los 4 niveles de "entrenamiento": prompt, RAG, fine-tune, agent training

NivelQué esCuándo
Prompt engineeringEscribir buenas instrucciones (system prompt)Siempre — base de todo
RAGConectar al modelo a tu base de conocimientoCuando el agente debe usar info específica tuya
Fine-tuningAjustar el modelo con tus ejemplosRaramente — solo casos muy específicos
Agent trainingIterar sobre el agente completo con evalsSiempre — ciclo continuo

Cuál te toca según tu caso

  • 90% de casos: prompt + RAG + agent training. Sin fine-tuning.
  • Necesitas tono o estilo muy específico inalcanzable con prompt: considera fine-tuning sobre un modelo pequeño.
  • Restricciones de latencia/coste: fine-tuning sobre Llama o modelo similar para correr más rápido y más barato.
  • Datos altamente especializados (medicina, legal): combinación de RAG potente + fine-tuning selectivo.

Cómo se construyen las evals (la parte que casi nadie hace)

Las evals son la pieza que separa un agente serio de una demo bonita. Y casi nadie las hace. El proceso:

  1. Recopila 50-200 inputs representativos de los casos reales que el agente va a manejar.
  2. Define el output esperado para cada uno — o el rango de outputs aceptables.
  3. Define criterios de evaluación automática — métricas medibles (correctitud factual, formato, ausencia de alucinaciones).
  4. Ejecuta tras cada cambio del agente (prompt, RAG config, model). Si la puntuación cae, no se despliega.
  5. Iteración del set — añade casos límite que vayas detectando en producción.

El bucle de mejora continua

  1. Producción captura interacciones reales con feedback (CSAT, errores detectados).
  2. Revisión semanal por humano: identificación de patrones de error.
  3. Actualización del KB / prompt / config basada en lo encontrado.
  4. Ejecución de evals para validar que no hay regresiones.
  5. Despliegue del cambio.
  6. Vuelta al paso 1.

Governance y datos sensibles

  • APIs en plan business. OpenAI API y Anthropic API en plan business no entrenan con tus datos. Confírmalo en tu DPA.
  • Anonimización cuando se pueda. Los patrones aportan al modelo; los nombres no.
  • Logs cifrados. Si guardas conversaciones, ciframos al menos las que contengan datos personales.
  • Retención mínima. No guardes lo que no necesitas. Política clara de borrado.
  • Auditoría regular de qué datos entran al modelo y desde dónde.

Preguntas frecuentes

En 2026, casi nunca. Los modelos base son tan buenos y RAG es tan flexible que el 90% de los casos se resuelven con prompt + RAG bien hechos. Fine-tuning aporta cuando: (1) necesitas tono o estilo muy específico que no logras con prompt, (2) tienes restricciones de latencia/coste que justifican un modelo más pequeño especializado. Si te ofrecen fine-tuning como primera opción, pregunta por qué no es RAG.

Con evals: un set de inputs representativos + outputs esperados + criterios de evaluación automática. Las evals se ejecutan en cada cambio del agente y dan una puntuación. Si tu agente "funciona" pero no tienes evals, no lo sabes — tienes una intuición. La diferencia entre un agente serio y un demo bonito está, casi siempre, en si hay evals o no.

Para empezar: Promptfoo o LangSmith. Para producción seria: Braintrust o Galileo. Si tu equipo es muy técnico y quieres open-source: DeepEval. La elección importa menos que el hábito — el problema no es qué herramienta usar, es que la mayoría de equipos no hace evals en absoluto.

¿Hablamos de tu caso concreto?

Una conversación técnica de 30 minutos. Te decimos qué encaja, qué no y a qué precio aproximado.

Cómo entrenar un agente IA: datos, evals, governance · Implementa