Il posto di OpenAI in cima alle capacità di intelligenza artificiale generativa potrebbe volgere ora che Google ha presentato ufficialmente il suo modello di linguaggio di grandi dimensioni più capace fino ad oggi, soprannominato Gemini 1.0. È il primo di “una nuova generazione di modelli di intelligenza artificiale, ispirati al modo in cui le persone comprendono e interagiscono con il mondo”, ha scritto il CEO Sundar Pichai in un post sul blog di Google.
Segnaliamo che le indiscrezioni degli ultimi giorni che volevano un ritardo a gennaio 2024 per il rilascio di Gemini non sono state rispettate.
“Fin da quando programmavo l’intelligenza artificiale per i giochi per computer da adolescente, e durante i miei anni come ricercatore di neuroscienze cercando di comprendere il funzionamento del cervello, ho sempre creduto che se potessimo costruire macchine più intelligenti, potremmo sfruttarle a beneficio dell’umanità in modi incredibili”, ha continuato Pichai.
Frutto di un’ampia collaborazione tra le divisioni DeepMind e Research di Google, Gemini ha tutti i fronzoli che le IA generative all’avanguardia hanno da offrire. “Le sue capacità sono all’avanguardia in quasi tutti i settori“, ha dichiarato Pichai.
Gemini è un’intelligenza artificiale multimodale
Il sistema è stato sviluppato da zero come un’intelligenza artificiale multimodale integrata. Molti modelli fondamentali possono essere costituiti essenzialmente da gruppi di modelli più piccoli, tutti accatastati in un insieme, con ogni singolo modello addestrato a svolgere la sua funzione specifica come parte di un insieme più ampio. Va tutto bene per funzioni superficiali come la descrizione di immagini, ma non tanto per compiti di ragionamento complessi.
Google, al contrario, ha pre-addestrato e messo a punto Gemini “fin dall’inizio su diverse modalità” che gli consentono di “comprendere e ragionare senza soluzione di continuità su tutti i tipi di input da zero, molto meglio dei modelli multimodali esistenti”, ha detto Pichai. Essere in grado di acquisire tutte queste forme di dati contemporaneamente dovrebbe aiutare Gemini a fornire risposte migliori su argomenti più impegnativi, come la fisica.
Anche la programmazione è un’area di forte interesse con Gemini. Secondo quanto riferito, il modello è esperto nei linguaggi di programmazione più diffusi tra cui Python, Java, C++ e Go. Google ha persino sfruttato una versione specializzata di Gemini per creare AlphaCode 2, il successore dell’intelligenza artificiale generativa vincitrice della competizione dello scorso anno. Secondo l’azienda, AlphaCode 2 ha risolto il doppio delle domande rispetto al suo predecessore, il che porterebbe le sue prestazioni al di sopra di circa l’85% dei partecipanti alla competizione precedente.
Google Gemini è disponibile nelle versioni Ultra, Pro e Nano
Anche se Google non ha condiviso immediatamente il numero di parametri che Gemini può utilizzare, la società ha comunque sottolineato la flessibilità operativa del modello e la capacità di lavorare in fattori di forma che vanno dai grandi data center ai dispositivi mobili locali. Per realizzare questa impresa di trasformazione, Gemini è disponibile in tre dimensioni: Nano, Pro e Ultra.
Nano, non sorprende, è il più piccolo dei tre e progettato principalmente per attività su smartphone. Pro è il passo successivo, un’offerta più versatile rispetto a Nano, e presto verrà integrata in molti dei prodotti Google esistenti, incluso Bard.
A partire da mercoledì, Bard ha iniziato a utilizzare una versione appositamente ottimizzata di Pro che Google promette offrirà “ragionamento, pianificazione, comprensione e altro ancora più avanzati”. Il chatbot Bard migliorato sarà disponibile negli stessi 170 paesi e territori dove è disponibile attualmente e, secondo quanto riferito, la società prevede di espandere la disponibilità della nuova versione nel corso del 2024. L’anno prossimo, con l’arrivo di Gemini Ultra, Google porterà in scena Bard Advanced, un’intelligenza artificiale ancora più potente con funzionalità aggiuntive.
Le funzionalità di Pro saranno accessibili anche tramite chiamate API mediante Google AI Studio o Google Cloud Vertex AI. Anche Search (in particolare SGE), Ads, Chrome e Duet AI vedranno la funzionalità Gemini integrata nelle loro funzionalità nei prossimi mesi.
Gemini Ultra non sarà disponibile almeno fino al 2024, poiché secondo quanto riferito richiede ulteriori test prima di essere autorizzato al rilascio per “selezionati clienti, sviluppatori, partner ed esperti di sicurezza e responsabilità” per test e feedback. Ma quando arriverà, Ultra promette di essere incredibilmente potente per l’ulteriore sviluppo dell’IA.