Spiegoni · Basi

La finestra di contesto: la memoria di lavoro dell'IA, spiegata semplice

Redazione IA da Zero · 28 giugno 2026 · Lettura 4 min

Ogni modello di IA ha un limite a quanto testo può tenere a mente in una volta sola. Si chiama finestra di contesto. Capirla aiuta a spiegare perché a volte l'IA "dimentica" cose dette poco prima, e perché alcuni modelli oggi reggono libri interi.

In breve

La finestra di contesto è la memoria di lavoro del modello: quanto testo può tenere in testa mentre risponde.
Si misura in token (un token è circa tre quarti di una parola); oggi i modelli più capienti arrivano a 1 milione di token.
È grande ma non infinita: oltre il limite il modello taglia, più contesto costa di più, e nei testi lunghissimi può perdere i dettagli messi in mezzo.

Cos'è la finestra di contesto

La finestra di contesto è tutto il testo che un modello può "guardare" mentre prepara una risposta, inclusa la risposta stessa. Non è la sua cultura generale, cioè i dati su cui è stato addestrato. È più simile alla sua memoria di lavoro: ciò che ha davanti agli occhi in quel momento.

Si misura in token. Un token è un pezzetto di testo: in inglese vale circa 0,75 parole, più o meno tre o quattro caratteri. Quindi quando senti "200.000 token" o "1 milione di token", pensa a quanto testo ci sta dentro: la domanda, i documenti che hai incollato, la conversazione fino a quel punto e la risposta che il modello sta scrivendo.

In parole povere

In parole povere: immagina una scrivania. La finestra di contesto è quanto ci sta sopra. Tutto ciò che è sulla scrivania, il modello lo vede e lo usa. Ciò che finisce per terra, lo perde di vista.

Perché conta: libri interi e conversazioni lunghe

Più la finestra è grande, più cose puoi dargli in una volta. La documentazione di Google indica che un milione di token corrisponde, per dare un'idea, a circa otto romanzi di lunghezza media, 50.000 righe di codice, oppure le trascrizioni di oltre 200 episodi di podcast.

Modelli con finestra da un milione di token esistono davvero. Google li offre con Gemini, il primo modello capace di accettare un milione di token. Anche Anthropic, con i modelli Claude più recenti, mette a disposizione una finestra da un milione di token. In pratica puoi caricare un contratto lungo, un manuale, mesi di chat, e chiedere un riassunto o una ricerca dentro tutto quel materiale senza spezzarlo a pezzi.

I limiti: dimentica, costa, e si perde in mezzo

Grande non vuol dire infinita. Quando il testo supera la finestra, il modello deve tagliare o riassumere la parte che esce: è lì che "dimentica" quello che hai detto all'inizio di una chat molto lunga. Niente magia, finisce solo fuori dalla scrivania.

Poi c'è il costo. Ogni token che entra e ogni token che esce si paga. Più contesto carichi, più la richiesta costa e più tempo serve. Anthropic, per esempio, applica una tariffa più alta sopra i 200.000 token.

Infine un effetto curioso e ben documentato: il "lost in the middle". Uno studio pubblicato sulla rivista TACL ha mostrato che i modelli usano meglio le informazioni messe all'inizio o alla fine di un contesto lungo, mentre faticano con quelle in mezzo. La stessa documentazione di Anthropic avverte che, man mano che i token crescono, precisione e capacità di recupero possono calare. Tradotto: dargli di più non garantisce risposte migliori. Conta anche cosa gli metti davanti, e dove.

Cosa cambia per te

Tre cose da ricordare sulla finestra di contesto.

È la memoria di lavoro del modello: tutto ciò che vede mentre risponde, misurato in token.
Oggi i modelli più capienti reggono un milione di token, abbastanza per libri interi o lunghe conversazioni.
Resta un limite: oltre la finestra dimentica, più contesto costa di più, e nei testi lunghissimi può perdere i dettagli centrali.

In una riga

La finestra di contesto è la scrivania del modello: grande quanto vuoi, ma quello che cade per terra lui non lo vede più.

Fonti

Articolo divulgativo: i fatti sono rielaborati con parole nostre a partire dalle fonti citate. Per i dettagli ufficiali rimandiamo alle pagine originali. Aggiornato al 28 giugno 2026.

Domande frequenti

Quanto testo entra in un milione di token?

Secondo Google, circa otto romanzi di lunghezza media, oppure 50.000 righe di codice, o le trascrizioni di oltre 200 episodi di podcast. Un token vale più o meno tre quarti di una parola.

Perché l'IA a volte dimentica cosa le ho detto prima?

Perché la conversazione ha superato la finestra di contesto. Quando il testo non ci sta più, il modello taglia o riassume la parte più vecchia, che quindi sparisce dalla sua memoria di lavoro.