Le due vite di un modello: addestrarlo e usarlo
Ogni modello di IA ha due vite. Prima studia, una volta sola, su enormi gruppi di chip. Poi lavora, all'infinito, ogni volta che qualcuno gli scrive. Capire questa differenza spiega buona parte dei costi dell'IA di oggi.
In breve
- Il training è la fase in cui il modello impara dai dati: lunga, costosissima, fatta una volta.
- L'inferenza è quando il modello viene usato per rispondere: leggera per ogni richiesta, ma moltiplicata per miliardi di volte.
- Alla lunga il costo totale dell'inferenza può superare quello del training.
Prima vita: imparare
Il training è la scuola del modello. Gli si danno valanghe di dati e lui, poco a poco, regola i suoi parametri interni finché non riconosce schemi e produce risposte sensate. È un lavoro enorme. Nvidia spiega che addestrare un grande modello significa far passare i dati attraverso strati di "neuroni", ognuno con un suo peso, in cicli che si ripetono milioni di volte.
Quanto enorme? Per Llama 3.1, da 405 miliardi di parametri, Nvidia stima circa 3,8 per 10 alla venticinquesima operazioni matematiche. Per reggere tutto questo servono migliaia di chip potenti che lavorano insieme per settimane o mesi.
In parole povere: il training è come mandare il modello a scuola. Costa tantissimo, dura tanto, ma lo fai una volta sola.
Perché costa miliardi
Il prezzo viene quasi tutto dall'hardware. Secondo Epoch AI, tra chip, server e reti se ne va il grosso della spesa, e il costo dell'addestramento dei modelli di frontiera cresce di circa 2,4 volte l'anno dal 2016.
I numeri lo confermano. Lo Stanford AI Index 2024 stima che addestrare GPT-4 sia costato circa 78 milioni di dollari in calcolo, e Gemini Ultra circa 191 milioni. Per fare un paragone, nel 2017 il primo modello "Transformer" costava circa 900 dollari. Epoch AI prevede che i training più grandi supereranno il miliardo di dollari entro il 2027.
Seconda vita: lavorare
Finita la scuola, il modello va al lavoro. Questa fase si chiama inferenza: il modello prende una domanda nuova e produce una risposta. Backblaze la descrive come un'operazione spesso continua e di solito più veloce e leggera del training. Una singola richiesta consuma poco.
Il punto è il "moltiplicato per". Una risposta costa poco, ma i grandi servizi ne danno miliardi ogni giorno, senza sosta, finché ci sono utenti. Così tante goccioline diventano un fiume. Per questo Nvidia dice che oggi l'inferenza è il cuore pulsante dell'adozione dell'IA: deve essere veloce e servire più persone possibile, tutte insieme.
Ecco perché a volte il conto dell'inferenza supera quello del training. Il training è una spesa unica; l'inferenza è una bolletta che non smette mai di crescere. Con abbastanza utenti, la somma di tante piccole richieste batte il costo, pur enorme, di aver costruito il modello.
Cosa cambia per te
Tre cose da portare a casa:
- Il training è una spesa unica e gigantesca; l'inferenza è un costo continuo.
- Per ogni richiesta l'inferenza è leggera, ma si ripete miliardi di volte.
- Con tanti utenti, il totale dell'inferenza può superare il costo del training.
Un modello costa una fortuna per imparare, ma può costare ancora di più semplicemente per restare al lavoro.
Fonti
- NVIDIA Blog — Training vs Inference
- Backblaze — AI 101: Training vs. Inference
- Epoch AI — How much does it cost to train frontier AI models?
- Stanford HAI — 2024 AI Index Report
Articolo divulgativo: i fatti sono rielaborati con parole nostre a partire dalle fonti citate. Per i dettagli ufficiali rimandiamo alle pagine originali. Aggiornato al 28 giugno 2026.
Domande frequenti
Il training si fa una volta sola?
In sostanza sì. Un modello viene addestrato una volta, poi usato a lungo. Si può aggiornare o riaddestrare, ma la grande spesa iniziale è quella, una tantum.
Se ogni risposta costa poco, come fa l'inferenza a costare più del training?
Perché si ripete senza sosta. Una richiesta costa poco, ma i grandi servizi ne servono miliardi al giorno: la somma, nel tempo, può superare il costo unico dell'addestramento.