Saltar para o conteúdo
Implementa.

Criar um agente IA · Guia 5 de 6

Como treinar um agente IA: dados, evals, governance

Treinar um agente IA não é "carregar um PDF" nem "fine-tunar o modelo". Em 2026, quase sempre é construir um bom sistema de RAG, escrever as evals que medem se responde bem, e desenhar o ciclo que melhora com base em dados reais. O resto é vocabulário que confunde — e custa dinheiro.

Os 4 níveis de "treino": prompt, RAG, fine-tune, agent training

NívelO que éQuando
Prompt engineeringEscrever boas instruções (system prompt)Sempre — base de tudo
RAGLigar o modelo à tua base de conhecimentoQuando o agente tem de usar info específica tua
Fine-tuningAfinar o modelo com os teus exemplosRaramente — só casos muito específicos
Agent trainingIterar sobre o agente completo com evalsSempre — ciclo contínuo

Qual te calha conforme o teu caso

  • 90% dos casos: prompt + RAG + agent training. Sem fine-tuning.
  • Precisas de tom ou estilo muito específico inalcançável com prompt: pondera fine-tuning sobre um modelo pequeno.
  • Restrições de latência/custo: fine-tuning sobre Llama ou modelo similar para correr mais depressa e mais barato.
  • Dados altamente especializados (medicina, jurídico): combinação de RAG potente + fine-tuning seletivo.

Como se constroem as evals (a parte que quase ninguém faz)

As evals são a peça que separa um agente a sério de uma demo bonita. E quase ninguém as faz. O processo:

  1. Recolhe 50-200 inputs representativos dos casos reais que o agente vai tratar.
  2. Define o output esperado para cada um — ou o intervalo de outputs aceitáveis.
  3. Define critérios de avaliação automática — métricas mensuráveis (correção factual, formato, ausência de alucinações).
  4. Executa após cada alteração do agente (prompt, RAG config, model). Se a pontuação cair, não se faz deploy.
  5. Iteração do conjunto — acrescenta casos-limite que fores detetando em produção.

O ciclo de melhoria contínua

  1. Produção captura interações reais com feedback (CSAT, erros detetados).
  2. Revisão semanal por humano: identificação de padrões de erro.
  3. Atualização da KB / prompt / config com base no que se encontrou.
  4. Execução de evals para validar que não há regressões.
  5. Deploy da alteração.
  6. Voltar ao passo 1.

Governance e dados sensíveis

  • APIs em plano business. OpenAI API e Anthropic API em plano business não treinam com os teus dados. Confirma no teu DPA.
  • Anonimização sempre que possível. Os padrões trazem valor ao modelo; os nomes não.
  • Logs cifrados. Se guardas conversas, cifra pelo menos as que contenham dados pessoais.
  • Retenção mínima. Não guardes o que não precisas. Política clara de apagamento.
  • Auditoria regular de que dados entram no modelo e a partir de onde.

Perguntas frequentes

Em 2026, quase nunca. Os modelos base são tão bons e o RAG é tão flexível que 90% dos casos se resolvem com prompt + RAG bem feitos. O fine-tuning ajuda quando: (1) precisas de um tom ou estilo muito específico que não consegues com prompt, (2) tens restrições de latência/custo que justificam um modelo mais pequeno especializado. Se te oferecem fine-tuning como primeira opção, pergunta porque não é RAG.

Com evals: um conjunto de inputs representativos + outputs esperados + critérios de avaliação automática. As evals correm a cada mudança do agente e dão uma pontuação. Se o teu agente "funciona" mas não tens evals, não sabes — tens intuição. A diferença entre um agente a sério e uma demo bonita está quase sempre em haver evals ou não.

Para começar: Promptfoo ou LangSmith. Para produção a sério: Braintrust ou Galileo. Se a tua equipa é muito técnica e queres open-source: DeepEval. A escolha importa menos do que o hábito — o problema não é que ferramenta usar, é que a maioria das equipas não faz evals de todo.

Falamos sobre o teu caso concreto?

Uma conversa técnica de 30 minutos. Dizemos-te o que encaixa, o que não, e o preço aproximado.

Como treinar um agente IA: dados, evals, governance · Implementa