RLHF: come si educa un'IA con i voti delle persone
Un modello appena addestrato sa tante cose, ma risponde in modo grezzo. Con l'RLHF entrano in gioco le persone: leggono le risposte, dicono quale è migliore e correggono. Così il modello diventa più utile e meno tossico.
In breve
- RLHF vuol dire "apprendimento per rinforzo dal feedback umano".
- Le persone confrontano le risposte e indicano la migliore.
- Questo segnale rende i modelli come ChatGPT più utili, onesti e sicuri.
Cosa succede dopo l'addestramento di base
Un modello linguistico nasce leggendo enormi quantità di testo. Impara a prevedere la parola dopo. Ma a quel punto è solo un bravo "completatore di frasi". Non sa ancora come comportarsi con le persone.
Qui entra l'RLHF. La sigla sta per Reinforcement Learning from Human Feedback, cioè apprendimento per rinforzo dal feedback umano. È una fase che viene dopo l'addestramento di base. Serve a sistemare il comportamento del modello usando il giudizio delle persone, non altro testo.
In parole povere: prima il modello impara a parlare. Poi delle persone gli insegnano come parlare bene, dandogli dei voti.
Come funziona: i tre passi
Il metodo segue tre passi. Le fonti tecniche (IBM, AWS, Hugging Face) li descrivono allo stesso modo.
Primo passo. Si parte da un modello già addestrato. Spesso gli si mostrano prima alcuni esempi scritti da persone, per insegnargli il formato giusto delle risposte.
Secondo passo. Si crea un "modello di ricompensa". Funziona così: il modello dà più risposte alla stessa domanda. Delle persone le confrontano e dicono quale è migliore. Il confronto a coppie funziona meglio del voto secco: per noi è più facile dire "questa è meglio di quella" che dare un punteggio preciso. Da questi confronti nasce un secondo modello che impara a dare un voto al posto nostro.
Terzo passo. Si usa questo voto per allenare il modello. Una tecnica molto usata si chiama PPO. Il modello prova risposte, riceve il voto e si aggiusta. Un freno lo trattiene dall'allontanarsi troppo da come era prima.
Perché ha reso utili modelli come ChatGPT
La metafora è quella dell'allievo e dell'insegnante. L'allievo conosce la materia, ma scrive temi confusi. L'insegnante non riscrive il tema: assegna voti e corregge. Con quei voti l'allievo capisce cosa va e cosa no. A poco a poco migliora da solo.
I risultati sono concreti. OpenAI, con il modello InstructGPT, ha mostrato che una versione piccola ma educata col feedback umano veniva preferita dalle persone rispetto a una molto più grande ma grezza. Produceva anche meno errori e meno risposte tossiche.
Per questo l'RLHF è considerato la tecnica standard del settore per ottenere risposte vere, utili e non dannose. È il motivo per cui ChatGPT si comporta come un assistente, e non come un semplice completamento automatico.
Cosa cambia per te
Cosa portarti a casa di questa tecnica.
- Ricorda che dietro al "tono giusto" di un'IA ci sono giudizi di persone vere.
- La qualità del modello dipende molto dalla qualità di quei giudizi.
- L'RLHF migliora il comportamento, non aggiunge nuove conoscenze al modello.
L'RLHF è la pagella che trasforma un modello bravo in un assistente educato.
Fonti
- IBM — What Is RLHF?
- AWS — What is RLHF?
- Hugging Face — Illustrating RLHF
- Wikipedia — Reinforcement learning from human feedback
Articolo divulgativo: i fatti sono rielaborati con parole nostre a partire dalle fonti citate. Per i dettagli ufficiali rimandiamo alle pagine originali. Aggiornato al 28 giugno 2026.
Domande frequenti
RLHF aggiunge nuove informazioni al modello?
No. Non insegna nuovi fatti. Sistema il comportamento: rende le risposte più utili, chiare e sicure, partendo da ciò che il modello già sa.
Le persone scrivono ogni risposta del modello?
No. Le persone confrontano e votano risposte già generate. Da quei voti nasce un modello di ricompensa che poi guida l'allenamento.