Google ha presentato Gemini 1.5 Pro, che la società descrive come in grado di offrire “prestazioni notevolmente migliorate” rispetto al modello precedente. La traiettoria dell’intelligenza artificiale dell’azienda – vista internamente come sempre più critica per il suo futuro – segue la presentazione di Gemini 1.0 Ultra la scorsa settimana, insieme al rebranding del chatbot Bard (in Gemini) per allinearsi alle capacità più potenti e versatili del nuovo modello.
Gemini 1.5 Pro ha prestazioni simili a Gemini 1.0 Ultra ma è più efficiente
In un post sul blog ufficiale, il CEO di Google, Sundar Pichai e il CEO di Google DeepMind, Demis Hassabis, hanno riferito di aver cercato di trovare un equilibrio tra la garanzia del loro pubblico sulla sicurezza etica dell’IA e la promozione delle capacità in rapido progresso dei loro modelli. “I nostri team continuano a spingersi oltre i confini dei nostri ultimi modelli con la sicurezza al centro“, ha riassunto Pichai.
L’azienda deve sottolineare la sicurezza per gli scettici dell’intelligenza artificiale (incluso un ex dirigente di Google) e per le autorità di regolamentazione governative. Ma deve anche sottolineare l’accelerazione delle prestazioni dei suoi modelli per gli sviluppatori di intelligenza artificiale, i potenziali clienti e gli investitori preoccupati che la società sia stata troppo lenta nel reagire al successo straordinario di OpenAI con ChatGPT.
Pichai e Hassabis affermano che Google Gemini 1.5 Pro offre risultati paragonabili a Gemini 1.0 Ultra. Tuttavia, funziona a quel livello in modo più efficiente, con requisiti computazionali ridotti. Le funzionalità multimodali includono l’elaborazione di testo, immagini, video, audio o codice.
Man mano che i modelli di intelligenza artificiale avanzano, continueranno a offrire una gamma più versatile di funzionalità in un’unica finestra di messaggio. Un esempio di ciò è OpenAI che integra la generazione di immagini DALL-E 3 in ChatGPT (e in futuro immaginiamo i video di Sora).
Google Gemini 1.5 Pro può anche gestire fino a un milione di token. I token sono le unità di dati che i modelli AI possono elaborare in un’unica richiesta. Google afferma che Gemini 1.5 Pro può elaborare oltre 700.000 parole, un’ora di video, 11 ore di audio e basi di codice con oltre 30.000 righe di codice. L’azienda afferma di aver addirittura “testato con successo” una versione che supporta fino a 10 milioni di token.
Le capacità di Google Gemini 1.5 Pro
Il tutto mantenendo un’elevata precisione nelle query con conteggi di token maggiori quando ha più nuovi dati da apprendere. Dice che il modello ha impressionato nella recensione di Needle In a Haystack. In questo test, gli sviluppatori inseriscono una piccola informazione all’interno di un lungo blocco di testo per vedere se il modello AI riesce a rilevarla. Google ha affermato che Gemini 1.5 Pro potrebbe trovare il testo incorporato il 99% delle volte in blocchi di dati lunghi fino a un milione di token.
Allo stesso modo, Gemini 1.5 Pro può ragionare su vari dettagli dalle trascrizioni di 402 pagine della missione lunare Apollo 11. Inoltre, può analizzare i punti della trama e gli eventi di un film muto di 44 minuti caricato con Buster Keaton. “Poiché la finestra contestuale lunga di 1.5 Pro è la prima del suo genere tra i modelli su larga scala, sviluppiamo continuamente nuove valutazioni e parametri di riferimento per testare le sue nuove capacità“, ha scritto Hassabis.
Google sta lanciando Gemini 1.5 Pro con capacità di 128.000 token, lo stesso numero al quale raggiungono il massimo i modelli GPT-4 di OpenAI (almeno secondo i dati annunciati pubblicamente). Hassabis afferma che Google alla fine introdurrà nuovi livelli di prezzo che supportano fino a un milione di query di token.