Vai al contenuto
Implementa.

Creare un agente IA · Guida 5 di 6

Come addestrare un agente IA: dati, eval, governance

Addestrare un agente IA non è "caricare un PDF" né "fine-tunare il modello". Nel 2026, quasi sempre è costruire un buon sistema RAG, scrivere le eval che misurano se risponde bene, e progettare il ciclo che migliora sulla base di dati reali. Il resto è vocabolario che confonde — e che costa soldi.

I 4 livelli di "addestramento": prompt, RAG, fine-tune, agent training

LivelloCos'èQuando
Prompt engineeringScrivere buone istruzioni (system prompt)Sempre — base di tutto
RAGConnettere il modello alla tua knowledge baseQuando l'agente deve usare info specifiche tue
Fine-tuningAggiustare il modello con i tuoi esempiRaramente — solo casi molto specifici
Agent trainingIterare sull'agente completo con evalSempre — ciclo continuo

Quale ti tocca in base al tuo caso

  • 90% dei casi: prompt + RAG + agent training. Senza fine-tuning.
  • Ti serve un tono o stile molto specifico irraggiungibile col prompt: considera fine-tuning su un modello piccolo.
  • Vincoli di latenza/costo: fine-tuning su Llama o modello simile per girare più veloce e più economico.
  • Dati altamente specializzati (medicina, legale): combinazione di RAG potente + fine-tuning selettivo.

Come si costruiscono le eval (la parte che quasi nessuno fa)

Le eval sono il pezzo che separa un agente serio da una demo carina. E quasi nessuno le fa. Il processo:

  1. Raccogli 50-200 input rappresentativi dei casi reali che l'agente gestirà.
  2. Definisci l'output atteso per ognuno — o il range di output accettabili.
  3. Definisci criteri di valutazione automatica — metriche misurabili (correttezza fattuale, formato, assenza di allucinazioni).
  4. Esegui dopo ogni modifica dell'agente (prompt, RAG config, modello). Se il punteggio cala, non si rilascia.
  5. Iterazione del set — aggiungi casi limite che individui in produzione.

Il loop di miglioramento continuo

  1. La produzione cattura interazioni reali con feedback (CSAT, errori rilevati).
  2. Revisione settimanale da parte di un umano: identificazione di pattern di errore.
  3. Aggiornamento di KB / prompt / config in base a quello che hai trovato.
  4. Esecuzione delle eval per validare che non ci siano regressioni.
  5. Rilascio del cambiamento.
  6. Ritorno al passo 1.

Governance e dati sensibili

  • API in piano business. OpenAI API e Anthropic API in piano business non si addestrano sui tuoi dati. Conferma nel tuo DPA.
  • Anonimizzazione quando possibile. I pattern aggiungono valore al modello; i nomi no.
  • Log cifrati. Se conservi conversazioni, cifra almeno quelle che contengono dati personali.
  • Retention minima. Non conservare quello che non ti serve. Policy chiara di cancellazione.
  • Audit regolare di quali dati entrano nel modello e da dove.

Domande frequenti

Nel 2026, quasi mai. I modelli base sono così buoni e il RAG così flessibile che il 90% dei casi si risolve con prompt + RAG fatti bene. Il fine-tuning serve quando: (1) ti serve un tono o stile molto specifico che non ottieni col prompt, (2) hai vincoli di latenza/costo che giustificano un modello più piccolo specializzato. Se ti propongono fine-tuning come prima opzione, chiedi perché non RAG.

Con eval: un set di input rappresentativi + output attesi + criteri di valutazione automatica. Le eval girano a ogni cambio dell'agente e danno un punteggio. Se il tuo agente "funziona" ma non hai eval, non lo sai — hai un'intuizione. La differenza tra un agente serio e una bella demo è quasi sempre se ci sono eval o no.

Per iniziare: Promptfoo o LangSmith. Per produzione seria: Braintrust o Galileo. Team molto tecnico e vuoi open-source: DeepEval. La scelta conta meno dell'abitudine — il problema non è quale tool, è che la maggior parte dei team non fa eval per niente.

Parliamo del tuo caso concreto?

Una conversazione tecnica di 30 minuti. Ti diciamo cosa va bene, cosa no e il prezzo approssimativo.

Come addestrare un agente IA: dati, eval, governance · Implementa