Forme fluide che si trasformano in fotogrammi di un filmato
Un'idea che diventa video: testo, immagini e suono in un solo gesto.
Gemini · Modelli · Video

Gemini Omni: l'IA di Google che crea video da testo, foto e audio

Redazione IA da Zero · 28 giugno 2026 · Lettura 4 min

Google ha presentato Gemini Omni, il modello che genera video partendo da testo, immagini, audio e altri video. Crea anche l'audio nel filmato, non solo le immagini. Si usa dentro l'app Gemini e nello strumento Flow. Vediamo cosa fa davvero, in parole semplici.

In breve

Cos'è Gemini Omni

Gemini Omni è il modello di Google che trasforma un'idea in un video. Tu descrivi una scena, gli dai una foto o un suono, e lui costruisce il filmato. La prima versione si chiama Gemini Omni Flash.

La novità sta in una parola: "Omni", cioè "tutto". Il modello accetta più tipi di ingresso insieme. Puoi partire da un testo, da un'immagine, da una clip audio o da un altro video. Mescoli questi materiali e ottieni un unico filmato coerente.

In parole povere

In parole povere: scrivi cosa vuoi vedere, aggiungi magari una foto e un suono, e Gemini Omni ti restituisce un breve video con dentro già l'audio giusto.

Cosa lo rende diverso

La cosa più utile è l'audio. Molti strumenti creano le immagini, poi il suono va aggiunto a parte. Qui invece il filmato nasce già con il suo audio: rumori, suoni d'ambiente, musica e perfino dialoghi, sincronizzati con quello che si vede.

I video durano poco, intorno ai dieci secondi a clip. Ogni filmato porta un marchio invisibile chiamato SynthID. Serve a riconoscere che il video è stato creato dall'IA, anche quando non si vede a occhio nudo.

C'è un limite voluto da Google: non puoi modificare voce e parlato dentro un video già generato. È una scelta di sicurezza, pensata per ridurre gli abusi e i falsi.

Dove si usa e che fine fa Veo

Gemini Omni vive dentro l'app Gemini, riservato a chi ha un abbonamento Plus, Pro o Ultra. Si trova anche in Flow, lo studio creativo di Google per chi monta video, e sta arrivando su YouTube Shorts. L'accesso per sviluppatori e aziende, tramite API, è previsto subito dopo.

E Veo? Veo resta. È l'altro modello video di Google, dedicato al video più "cinematografico" con audio. Gemini Omni è il nuovo arrivato, più versatile, che nell'app Gemini prende il posto centrale. Se hai letto "Veo 3", non ti sei sbagliato: è la famiglia precedente, ancora valida.

Cosa cambia per te

Cosa cambia per te

Cosa portarsi a casa su Gemini Omni:

In una riga

Con Gemini Omni descrivi una scena e Google te la trasforma in un breve video, suono compreso.

Fonti

Articolo divulgativo: i fatti sono rielaborati con parole nostre a partire dalle fonti citate. Per i dettagli ufficiali rimandiamo alle pagine originali. Aggiornato al 28 giugno 2026.

Domande frequenti

Come si chiama davvero il modello video di Google?

Il nuovo modello si chiama Gemini Omni, nella versione Gemini Omni Flash. Veo è un modello separato e precedente, sempre di Google.

Gemini Omni crea anche l'audio?

Sì. Genera i video con l'audio già incluso: suoni, ambiente, musica e dialoghi, sincronizzati con le immagini.

Dove posso usarlo?

Nell'app Gemini con un abbonamento Plus, Pro o Ultra, e nello strumento Flow. Sta arrivando anche su YouTube.

Ti è stato utile?

Su IA da Zero raccontiamo l'attualità dell'IA su Claude, ChatGPT e Gemini, sempre dalle fonti ufficiali. Vedi tutti gli articoli →

Le novità sull'IA, una volta a settimana

Un'email breve con le notizie sull'IA che contano davvero, verificate alla fonte. Niente spam, disiscrizione con un clic.