Saltar al contenido
Implementa.

Guía pillar · Crear un agente IA

Crear un agente IA: la guía que tendrías que haber leído antes del primer prototipo

La mayoría de lo que se vende como "agente IA" es un chatbot con sombrero. Un agente de verdad hace tres cosas que un chatbot no hace: decide qué herramienta usar, mantiene memoria entre interacciones y mide su propio trabajo. Esta guía está pensada para que sepas la diferencia antes de pagar el primer prototipo.

Qué es realmente un agente IA (y qué es un "chatbot con sombrero")

Un agente IA, en sentido técnico estricto, es un sistema que combina un modelo de lenguaje con tres capacidades adicionales: capacidad de decidir qué herramienta usar en función del contexto, memoria persistente entre interacciones, y mecanismos de medición de su propio trabajo (evals). Cualquier sistema que carezca de las tres no es un agente — es un chatbot. La distinción no es semántica, es operativa: los chatbots responden, los agentes ejecutan.

La razón por la que el mercado está lleno de "agentes" que son chatbots con sombrero es comercial: el término "agente" vende mejor. Pero la diferencia se nota inmediatamente en producción — un chatbot bien construido es útil; un agente mal construido es una bomba. Conocer la diferencia antes de pagar es la mejor inversión que puedes hacer en este momento.

Los tres tipos de agentes que importan en empresa

No todos los agentes son iguales — tres categorías abarcan el 95% de los casos útiles en empresa. Confundirlas lleva a contratar lo que no toca.

Agente comercial (AI SDR, lead routing)

Diseñado para tareas comerciales: prospección automatizada, calificación de leads, routing de oportunidades. El más medible (ROI en reuniones generadas), el más adoptado por empresas con ciclos de venta largos. Stack típico: dominios + warmup + scoring + secuencias + integración CRM.

Agente operativo (workforce, asistente interno)

Diseñado para tareas internas repetitivas: clasificación de incoming, generación de borradores, procesamiento documental. Mide su éxito en horas ahorradas/mes. Requiere integración profunda con los sistemas internos (ERP, ITSM, etc.).

Agente de cara al cliente (soporte, comercial light)

Diseñado para interacción directa con el cliente: soporte, FAQs, agendar reuniones. El más visible y, por eso, el de mayor riesgo reputacional. Requiere supervisión rigurosa, escalado humano sólido y métricas de CSAT desde el día uno.

La arquitectura mínima: LLM, memoria, herramientas, evals

Un agente serio se compone de cuatro capas. Si tu proveedor no las puede dibujar en una servilleta, no está construyendo un agente — está vendiéndote una etiqueta.

  1. LLM base — GPT-4 / Claude / Llama, según privacidad, latencia y coste.
  2. Memoria — base vectorial (Pinecone, Weaviate, pgvector) para mantener contexto entre interacciones + memoria a corto plazo en la conversación actual.
  3. Herramientas (tools) — APIs, funciones, búsqueda web, conexión a tus sistemas. El agente decide cuál usar.
  4. Evals — set de inputs representativos con outputs esperados que se ejecutan automáticamente tras cada cambio.

Cómo se "entrena" un agente (no, no es subir un PDF)

El término "entrenamiento" se ha vuelto confuso. En 2026, "entrenar un agente" rara vez significa fine-tunear el modelo — significa construir un buen sistema de RAG (retrieval-augmented generation), escribir un system prompt sólido y configurar las herramientas correctamente.

  1. Prompt engineering serio. El system prompt define quién es el agente, qué puede hacer, qué no, qué tono usa y cuándo escala. Es la pieza más infravalorada y con mejor ratio impacto/coste.
  2. RAG sobre tu base de conocimiento. Estructurar tu KB en bloques cortos, generar embeddings, configurar retrieval con re-ranking.
  3. Configurar herramientas. Para cada tool, definir cuándo usarla, qué parámetros aceptar, cómo manejar errores.
  4. Fine-tuning (solo si es necesario). Casi nunca lo es. Solo cuando necesitas tono o estilo muy específico que el prompt no logra, o cuando hay restricciones de coste/latencia que justifican un modelo más pequeño especializado.

Human-in-the-loop: por qué no es opcional

Human-in-the-loop (HITL) significa que un humano interviene en checkpoints concretos del ciclo del agente. NO es "humano supervisando todo todo el tiempo" — es humano en los puntos donde el coste de error supera al coste de la pausa. Sin HITL en esos puntos, el agente es un experimento; con HITL, es un sistema.

  • Decisiones de alto impacto (acciones irreversibles, vinculantes, con consecuencias económicas o legales).
  • Casos de baja confianza del modelo (cuando la probabilidad de la respuesta cae bajo umbral).
  • Excepciones detectadas (input fuera de los patrones esperados).
  • Revisión muestreada periódica del trabajo "rutinario" para detectar drift sistémico.

Cuánto cuesta de verdad construir y operar un agente

CostePymeMid-marketEnterprise
Setup técnico3.000-15.000 €15.000-75.000 €75.000-250.000 €+
Operación mensual (LLM + infra)50-500 €500-2.500 €2.500-15.000 €
Supervisión humana (tiempo persona)5-15 h/mes20-50 h/mes50-200 h/mes
Iteración mensualIncluido en retainer 200-500 €/mes1.500-5.000 €/mes5.000-25.000 €/mes

Cuándo SÍ y cuándo NO crear un agente

SÍ crear agenteNO crear agente
Volumen alto y repetitivoVolumen bajo o errático
Input variable, decisión simpleInput simple, decisión compleja
Coste de error bajo o reversibleCoste de error alto e irreversible
Hay humano disponible para supervisarNo hay quien dueñe el sistema
Proceso estable a 12+ mesesProceso que está cambiando

Material gratuito · PDF

Checklist de governance para agentes IA en producción

Las 4 capas obligatorias (HITL, logs, rollback, evals) explicadas paso a paso. Sin esto, un agente no es un sistema — es una bomba.

Qué te llevas

  • Checklist de las 4 piezas críticas
  • Plantilla de política de uso por tipo de agente
  • Métricas de calidad por tarea (con umbrales)

Preguntas frecuentes

Para uno básico no. Plataformas como n8n, Make AI, Voiceflow o los Assistants de OpenAI te permiten montar agentes funcionales sin código. Para agentes serios — los que se integran con tus sistemas reales, manejan errores y se monitorizan — sí necesitas a alguien con perfil técnico, aunque no sea tú. La línea entre "agente bonito de demo" y "agente que trabaja" se cruza con código.

Un agente básico (un asistente sobre tu KB, un chatbot de soporte simple) puede estar en una semana. Un agente serio — con integraciones a CRM, herramientas, escalado humano y evals — entre 6 y 12 semanas. Cualquier proveedor que te prometa "agente enterprise en 3 días" te está vendiendo un demo con corbata.

Para prototipar: OpenAI Assistants (rápido, simple). Para producción no-código/low-code: n8n o Make AI. Para sistemas complejos con orquestación seria: LangChain o LangGraph (necesitas dev). La elección depende menos de la plataforma y más de quién va a operar el agente día a día. Empieza por lo más simple que cubra tu caso — siempre puedes subir de capa.

Cuatro piezas: (1) política de uso clara — qué puede hacer y qué no; (2) logs auditables de cada decisión y cada acción; (3) human-in-the-loop para decisiones críticas; (4) revisión periódica de comportamiento (evals automáticas + revisión humana). Sin esos cuatro, el agente es un experimento, no un sistema en producción.

Depende del sistema que lo rodea. Bien diseñado: el agente detecta la incertidumbre, escala a humano y la situación se resuelve con poca fricción. Mal diseñado: el agente ejecuta una acción equivocada con plena confianza y te enteras cuando un cliente se queja. La calidad de un agente no se mide cuando acierta — se mide cuando duda.

¿Lo lees o lo dejamos funcionando?

Esta guía cubre la parte de pensar. La parte de implementar — y dejarlo medido — es lo que cobramos.

Crear un agente IA: la guía que tendrías que haber leído antes del primer prototipo · Implementa