Google ha annunciato un nuovo modello di intelligenza artificiale denominato “Veo” che si occuperà della generazione di video, adattati alle visioni creative degli utenti. Google sta inoltre aggiornando il suo modello di generazione delle immagini, portandolo alla terza generazione in Imagen 3.
Bard è stato uno dei nostri primi assaggi di moderni LLM basati sull’intelligenza artificiale con Google. Quella versione è stata lanciata per la prima volta circa un anno fa, con importanti modifiche apportate alla piattaforma negli ultimi mesi. Uno dei cambiamenti più grandi è stato il cambio completo del nome, il rebranding dello strumento AI rivolto all’utente come Gemini, che ora si è diffuso in tutta la linea di prodotti dell’azienda con Gemini Nano nei dispositivi attuali e futuri e Gemini Pro sul cloud.
Poco prima che Bard venisse rinominato Gemini, Google ha aggiunto la possibilità di generare immagini attraverso il modello conversazionale dell’intelligenza artificiale. Chiedere la generazione di un’immagine di una mucca su una barca realizzava esattamente quella, in qualunque stile tu ritenessi opportuno. Questo processo è stato alimentato da Imagen 2, che è stata la prima versione a essere disponibile al pubblico (non più disponibile a causa di problemi legati alle etnicità delle persone generate)
Ora Google ha annunciato due modelli di generazione creativa, Veo e Imagen 3. Veo è il più entusiasmante, poiché è qualcosa che il pubblico non ha ancora potuto provare. Il modello è creato appositamente per la generazione di video che comprende la semantica visiva e il linguaggio naturale, in modo simile ad altri modelli moderni. Questo approccio introdotto nella generazione di video offre risultati che possono essere personalizzati in modo creativo per adattarsi a determinati stili.
Google indica che il modello Veo sarà in grado di comprendere i “termini cinematografici” nelle istruzioni dell’utente, come riprese aeree e formati timelapse. Veo è in grado di generare video in 1080p che possono durare oltre un minuto, superando i modelli attuali come Sora di OpenAI che arrivano a un massimo di 60 secondi.
Google Veo si basa su diversi progetti passati
Veo si basa su anni di lavoro sui modelli video generativi, tra cui Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, combinando architettura, leggi di scala e altre nuove tecniche per migliorare la qualità e la risoluzione dell’output.
Google sta invitando creatori e registi a mettere alla prova Veo per modellare il modello in modo che possa ospitare un’ampia varietà di stili artistici e casi d’uso.
Sia Veo che Imagen 3 saranno disponibili per l’uso in un’anteprima privata tramite VideoFX di Google Labs. VideoFX utilizzerà SynthID per garantire che il contenuto creato sia contrassegnato digitalmente e generato in modo responsabile