Os 4 níveis de "treino": prompt, RAG, fine-tune, agent training
| Nível | O que é | Quando |
|---|---|---|
| Prompt engineering | Escrever boas instruções (system prompt) | Sempre — base de tudo |
| RAG | Ligar o modelo à tua base de conhecimento | Quando o agente tem de usar info específica tua |
| Fine-tuning | Afinar o modelo com os teus exemplos | Raramente — só casos muito específicos |
| Agent training | Iterar sobre o agente completo com evals | Sempre — ciclo contínuo |
Qual te calha conforme o teu caso
- 90% dos casos: prompt + RAG + agent training. Sem fine-tuning.
- Precisas de tom ou estilo muito específico inalcançável com prompt: pondera fine-tuning sobre um modelo pequeno.
- Restrições de latência/custo: fine-tuning sobre Llama ou modelo similar para correr mais depressa e mais barato.
- Dados altamente especializados (medicina, jurídico): combinação de RAG potente + fine-tuning seletivo.
Como se constroem as evals (a parte que quase ninguém faz)
As evals são a peça que separa um agente a sério de uma demo bonita. E quase ninguém as faz. O processo:
- Recolhe 50-200 inputs representativos dos casos reais que o agente vai tratar.
- Define o output esperado para cada um — ou o intervalo de outputs aceitáveis.
- Define critérios de avaliação automática — métricas mensuráveis (correção factual, formato, ausência de alucinações).
- Executa após cada alteração do agente (prompt, RAG config, model). Se a pontuação cair, não se faz deploy.
- Iteração do conjunto — acrescenta casos-limite que fores detetando em produção.
O ciclo de melhoria contínua
- Produção captura interações reais com feedback (CSAT, erros detetados).
- Revisão semanal por humano: identificação de padrões de erro.
- Atualização da KB / prompt / config com base no que se encontrou.
- Execução de evals para validar que não há regressões.
- Deploy da alteração.
- Voltar ao passo 1.
Governance e dados sensíveis
- APIs em plano business. OpenAI API e Anthropic API em plano business não treinam com os teus dados. Confirma no teu DPA.
- Anonimização sempre que possível. Os padrões trazem valor ao modelo; os nomes não.
- Logs cifrados. Se guardas conversas, cifra pelo menos as que contenham dados pessoais.
- Retenção mínima. Não guardes o que não precisas. Política clara de apagamento.
- Auditoria regular de que dados entram no modelo e a partir de onde.