OpenAI apre nuovi orizzonti svelando il suo primo modello di text-to-video chiamato Sora, in grado di creare contenuti sorprendentemente realistici.
Ci siamo chiesti quando l’azienda avrebbe finalmente rilasciato il proprio motore video poiché molti dei suoi rivali, da Stability AI a Google, li hanno battuti sul tempo. Forse OpenAI voleva avere una messa a punto adeguata prima di un vero e proprio lancio. Di questo passo, la qualità dei suoi risultati potrebbe eclissare quella dei suoi contemporanei. Secondo la pagina ufficiale, Sora può generare “scene realistiche e fantasiose” da un singolo messaggio di testo. La differenza con questo motore è la tecnologia dietro di esso.
Sora è in grado di creare “scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo“, secondo il post introduttivo del blog di OpenAI. L’azienda rileva inoltre che il modello può comprendere come gli oggetti “esistono nel mondo fisico”, oltre a “interpretare accuratamente gli oggetti di scena e generare personaggi avvincenti che esprimono emozioni vibranti”.
Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in. pic.twitter.com/G1qhJRV9tg
— Eduardo Borges (@duborges) February 15, 2024
Il modello può anche generare un video basato su un’immagine fissa, nonché riempire i fotogrammi mancanti su un video esistente o estenderlo. Le demo generate da Sora incluse nel post del blog di OpenAI includono una scena aerea della California durante la corsa all’oro, un video che sembra essere stato girato dall’interno di un treno di Tokyo e altri. Molti presentano alcuni segni rivelatori di intelligenza artificiale – come un pavimento che si muove in modo sospetto in un video di un museo – e OpenAI afferma che il modello “potrebbe avere difficoltà a simulare accuratamente la fisica di una scena complessa”, ma i risultati sono nel complesso piuttosto impressionanti.
Andando avanti, la società lavorerà con i suoi “red teamer”, un gruppo di esperti del settore “per valutare le aree critiche relative a danni o rischi”. Vogliono assicurarsi che Sora non generi informazioni false, contenuti che incitano all’odio o abbia pregiudizi. Inoltre, OpenAI implementerà un classificatore di testo per rifiutare i prompt che violano la loro politica (che ora non comprende più limiti per l’uso militare). Questi includono input che richiedono contenuti sessuali, video violenti e somiglianze di celebrità, tra le altre cose.
Detto ciò, OpenAI Sopra non è stato ancora rilasciato pubblicamente e non sappiamo nemmeno quando sarà possibile utilizzarlo liberamente (o meglio, dietro un abbonamento) come accade oggi con ChatGPT e DALL-3.
La concorrenza avanza
Un paio di anni fa, erano i generatori di testo in immagine come Midjourney a essere in prima linea nella capacità dei modelli di trasformare le parole in immagini. Ma recentemente, il video ha iniziato a migliorare a un ritmo notevole: aziende come Runway e Pika hanno mostrato impressionanti modelli text-to-video, e Lumiere di Google sembra essere uno dei principali concorrenti di OpenAI anche in questo spazio. Similmente a Sora, Lumiere offre agli utenti strumenti di conversione del testo in video e consente loro anche di creare video da un’immagine fissa.