Crear un agente IA · Guía 5 de 6

Cómo entrenar un agente IA: datos, evals, governance

Entrenar un agente IA no es "subir un PDF" ni "fine-tunear el modelo". En 2026, casi siempre es construir un buen sistema de RAG, escribir las evals que miden si responde bien, y diseñar el bucle que mejora basado en datos reales. Lo demás es vocabulario que confunde — y que cuesta dinero.

Conversación técnica → Infraestructura IA Empresarial Volver al pillar

Los 4 niveles de "entrenamiento": prompt, RAG, fine-tune, agent training

Nivel	Qué es	Cuándo
Prompt engineering	Escribir buenas instrucciones (system prompt)	Siempre — base de todo
RAG	Conectar al modelo a tu base de conocimiento	Cuando el agente debe usar info específica tuya
Fine-tuning	Ajustar el modelo con tus ejemplos	Raramente — solo casos muy específicos
Agent training	Iterar sobre el agente completo con evals	Siempre — ciclo continuo

Cuál te toca según tu caso

90% de casos: prompt + RAG + agent training. Sin fine-tuning.
Necesitas tono o estilo muy específico inalcanzable con prompt: considera fine-tuning sobre un modelo pequeño.
Restricciones de latencia/coste: fine-tuning sobre Llama o modelo similar para correr más rápido y más barato.
Datos altamente especializados (medicina, legal): combinación de RAG potente + fine-tuning selectivo.

Cómo se construyen las evals (la parte que casi nadie hace)

Las evals son la pieza que separa un agente serio de una demo bonita. Y casi nadie las hace. El proceso:

Recopila 50-200 inputs representativos de los casos reales que el agente va a manejar.
Define el output esperado para cada uno — o el rango de outputs aceptables.
Define criterios de evaluación automática — métricas medibles (correctitud factual, formato, ausencia de alucinaciones).
Ejecuta tras cada cambio del agente (prompt, RAG config, model). Si la puntuación cae, no se despliega.
Iteración del set — añade casos límite que vayas detectando en producción.

El bucle de mejora continua

Producción captura interacciones reales con feedback (CSAT, errores detectados).
Revisión semanal por humano: identificación de patrones de error.
Actualización del KB / prompt / config basada en lo encontrado.
Ejecución de evals para validar que no hay regresiones.
Despliegue del cambio.
Vuelta al paso 1.

Governance y datos sensibles

APIs en plan business. OpenAI API y Anthropic API en plan business no entrenan con tus datos. Confírmalo en tu DPA.
Anonimización cuando se pueda. Los patrones aportan al modelo; los nombres no.
Logs cifrados. Si guardas conversaciones, ciframos al menos las que contengan datos personales.
Retención mínima. No guardes lo que no necesitas. Política clara de borrado.
Auditoría regular de qué datos entran al modelo y desde dónde.

Preguntas frecuentes

En 2026, casi nunca. Los modelos base son tan buenos y RAG es tan flexible que el 90% de los casos se resuelven con prompt + RAG bien hechos. Fine-tuning aporta cuando: (1) necesitas tono o estilo muy específico que no logras con prompt, (2) tienes restricciones de latencia/coste que justifican un modelo más pequeño especializado. Si te ofrecen fine-tuning como primera opción, pregunta por qué no es RAG.

Con evals: un set de inputs representativos + outputs esperados + criterios de evaluación automática. Las evals se ejecutan en cada cambio del agente y dan una puntuación. Si tu agente "funciona" pero no tienes evals, no lo sabes — tienes una intuición. La diferencia entre un agente serio y un demo bonito está, casi siempre, en si hay evals o no.

Para empezar: Promptfoo o LangSmith. Para producción seria: Braintrust o Galileo. Si tu equipo es muy técnico y quieres open-source: DeepEval. La elección importa menos que el hábito — el problema no es qué herramienta usar, es que la mayoría de equipos no hace evals en absoluto.

Plan de Impacto IA · gratis

La guía es genérica. Tu plan, no.

Cuéntanos tu empresa y te devolvemos un diagnóstico con prioridades, números y qué implementar primero. Sin reunión de venta y sin pagar un euro.

Sigue con estas

Crear un agente IA: la guía que tendrías que haber leído antes del primer prototipo Cómo crear un agente IA para ventas (AI SDR de verdad)Cómo crear un AI SDR: arquitectura completa de outbound automatizado