Diamo uno sguardo approfondito a Google Gemini, il nuovo LLM del colosso americano che promette una rivoluzione all’interno delle IA generative.
Potresti aver notato che OpenAI, i creatori della tecnologia ChaptGPT, sta attraversando un periodo di turbolenza con massicce dimissioni e riassegnazioni, in particolare con il suo CEO Sam Altman che parte per un potenziale lavoro in Microsoft per poi tornare al timone con un consiglio di amministrazione completamente nuovo. Potresti anche aver notato che nell’ultimo anno Google ha fatto grandi passi avanti nell’intelligenza artificiale rivolta alle aziende e ai consumatori, con il massiccio aggiornamento LLM (modello linguistico di grandi dimensioni) di PaLM 2, il rilascio di Google Bard e, in generale, il consolidamento dei suoi servizi di intelligenza artificiale in piattaforme coese.
Metti tutto insieme e non sorprende davvero che Google abbia colto l’occasione per lanciare un’intelligenza artificiale generativa di nuova generazione, questa chiamata Google Gemini. È nuova, è divertente e anche un po’ strana: ecco cosa dovresti sapere sull’intelligenza artificiale di Google Gemini.
Cos’è Google Gemini
Gemini è un nuovo e potente modello multimodale di intelligenza artificiale in grado di comprendere non solo testo ma anche immagini, video e audio.
Creato da Google, Alphabet e DeepMind (con lo zampino del fondatore Sergey Brin), Gemini è descritto come capace di completare compiti complessi in matematica, fisica e altre aree, oltre a comprendere e generare codice di alta qualità in vari linguaggi di programmazione.
Le differenze fra Nano, Pro e ULtra
Google descrive Gemini come un modello flessibile in grado di funzionare su qualsiasi cosa, dai data center di Google ai dispositivi mobili. Per raggiungere questa scalabilità, Gemini viene rilasciato in tre dimensioni: Nano, Pro e Ultra.
- Gemini Nano: le dimensioni del modello Gemini Nano sono progettate per funzionare su smartphone, in particolare Pixel 8. È progettato per eseguire attività sul dispositivo che richiedono un’elaborazione AI efficiente senza connettersi a server esterni, come suggerire risposte all’interno di applicazioni di chat o riassumere testo.
- Gemini Pro: in esecuzione sui data center dell’azienda, Gemini Pro è progettato per alimentare l’ultima versione del chatbot AI dell’azienda, Bard. È in grado di fornire tempi di risposta rapidi e di comprendere query complesse.
- Gemini Ultra: sebbene non sia ancora disponibile per un uso diffuso, Google descrive Ultra come il suo modello più capace, superando “gli attuali risultati all’avanguardia su 30 dei 32 benchmark accademici ampiamente utilizzati nella ricerca sui modelli linguistici di grandi dimensioni (LLM) e sviluppo.” È progettato per compiti altamente complessi e sarà rilasciato dopo aver terminato l’attuale fase di test.
Come usare Google Gemini
Gemini è al momento disponibile sui prodotti Google nelle dimensioni Nano e Pro, rispettivamente su Pixel 8 e sul chatbot Bard. Google prevede di integrarlo nel tempo nella ricerca, negli annunci, in Chrome e in altri servizi.
Sviluppatori e clienti aziendali potranno accedere a Gemini Pro tramite l’API Gemini in AI Studio di Google e Google Cloud Vertex AI a partire dal 13 dicembre. Gli sviluppatori Android avranno accesso a Gemini Nano tramite AICore, che sarà disponibile in anteprima.
Che fine farà PaLM 2 con l’arrivo di Gemini?
PaLM 2 è stato un massiccio aggiornamento del LLM incentrato sulla lingua di Google realizzato all’inizio del 2023. PaLM 2 eccelle in attività linguistiche come la traduzione e, sebbene Google abbia realizzato moduli PaLM 2 che gestiscono altre cose come la lettura di scansioni mediche, non è nativamente multimodale come Gemini.
Tuttavia, fornisce servizi di intelligenza artificiale leggeri per le aziende che desiderano creare la propria intelligenza artificiale attingendo al lavoro che Google ha già svolto, utilizzando la piattaforma Vertex su cui opera anche Gemini.
Gemini e PaLM 2 non sembrano essere concorrenti e Gemini è il modello con cui la maggior parte delle persone interagirà quando utilizzano prodotti e hardware di intelligenza artificiale. Di entrambi è responsabile Google DeepMind, nata dalla fusione dei due precedenti progetti Brain Team e DeepMind.
Google si riferisce a PaLM 2 e Gemini come a due modelli di intelligenza artificiale separati con focus diversi, sebbene possano lavorare insieme per determinati compiti.
Google Gemini vs GPT-4
Il nuovo modello Gemini di Google sembra essere uno dei modelli di intelligenza artificiale più grandi e avanzati fino ad oggi, anche se il rilascio del modello Ultra sarà quello che lo determinerà con certezza. Rispetto ad altri modelli popolari che alimentano i chatbot AI in questo momento, Gemini si distingue per la sua caratteristica multimodale nativa, mentre altri modelli, come GPT-4 (o il recente GPT-4 Turbo), si affidano a plugin e integrazioni per essere veramente multimodali.
Non sappiamo al momento come quale dei due modelli abbia le capacità maggiori, anche perché con Gemini siamo ancora agli inizi.