OpenAI ha appena tenuto il suo evento Spring Update trasmesso in streaming live su YouTube. L’amministratore delegato Sam Altman aveva precedentemente affermato che si trattava di qualcosa che aveva “sognato”, ma non era entrato nei dettagli. Tuttavia, la società ha finalmente alzato il sipario su ciò che chiama “GPT-4o” e possiamo finalmente capire cosa intendesse. E soprattutto, è disponibile per gli utenti gratuiti.
Più di ogni altro prodotto, ChatGPT è responsabile della rivoluzione dell’intelligenza artificiale nella quale ci troviamo attualmente. La sofisticazione del grande modello linguistico di OpenAI era diversa da qualsiasi cosa il mondo avesse visto prima, costringendo Google, una delle più grandi aziende tecnologiche del mondo, a recuperare terreno. Ora, appena 18 mesi dopo che ChatGPT ha ribaltato il modo in cui pensiamo all’intelligenza artificiale, OpenAI ha rilasciato uno dei suoi più grandi aggiornamenti fino ad oggi, e sta ancora facendo recuperare terreno a Google.
Cos’è GPT-4o
GPT-4o è il nuovo grande aggiornamento di GPT-4, successiva iterazione di GPT-4 e GPT-4 Turbo. È gratuito per tutti, è più veloce, più economico da utilizzare e offre risultati migliori che mai. Il CTO di OpenAI Mira Murati lo ha presentato all’aggiornamento primaverile dell’azienda il 13 maggio e, grazie alla sua velocità, sarai anche in grado di conversare senza ritardi con GPT-4o ad alta voce usando il microfono.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
La “o” in GPT-4o sta per “omni” e il suo focus principale è sugli input multimodali. Può gestire voce, video, immagini e migliora significativamente anche il supporto per le lingue non inglesi.
L’azienda afferma che il nuovo modello funzionerà in modo simile a GPT-4, ma lo farà molto più velocemente del fratello maggiore. GPT-4o aggiunge anche una nuova tecnologia alla modalità vocale, in cui le persone utilizzano i propri microfoni per parlare con ChatGPT.
OpenAI voleva che parlare con ChatGPT utilizzando la modalità vocale fosse come parlare con una persona reale, ma la latenza tra la fine dell’oratore e la risposta di ChatGPT ha rovinato l’immersione. Ora, l’azienda sta aggiungendo nuove tecnologie dietro GPT-4o per rendere la conversazione con un chatbot il più naturale possibile.
I dettagli tecnici
GPT-4o beneficia di una finestra di contesto molto più ampia rispetto a GPT-4 e GPT-3.5. Per riferimento, la finestra di contesto di GPT-4 Turbo è di 128.000 token, con una lunghezza massima del token di risposta di 4.096. I primi rapporti suggeriscono che il limite dei token di output con GPT-4o è stato dimezzato fino al 2048, ma OpenAI afferma che ha una finestra di contesto di 128.000 token e una data di onoscenza di ottobre 2023.
Le finestre di contesto nell’intelligenza artificiale sono finestre che compromettono l’intero “pensiero” dell’intelligenza artificiale. Ciò include tutto l’input utilizzato per comprendere e generare una risposta, comprendendo la richiesta fornita dall’utente nonché qualsiasi contesto aggiuntivo o dialogo precedente. La dimensione della finestra di contesto determina la quantità di informazioni che il modello può “ricordare” dalle fasi precedenti della conversazione o del documento, influenzando la sua capacità di produrre risposte coerenti e pertinenti.
OpenAI ha menzionato che GPT-4o arriverà nell’API dando alcuni dei maggiori miglioramenti in termini di numeri. GPT-4o è due volte più veloce, il 50% più economico e ha cinque volte più limiti di velocità rispetto a GPT-4 Turbo.
Questi sono grandi miglioramenti e GPT-4 Turbo era già significativamente più veloce. Considerata la riduzione dei costi legati al funzionamento di questo modello, è logico che OpenAI lo renda disponibile anche agli utenti gratuiti. Anche perché, più viene usato e più il modello diventa sofisticato grazie al training derivante dai dati degli utenti (in completo contrasto con gli LLM open source come LLama 3 che è possibile utilizzare in locale e completamente offline).
GPT-4o è anche migliore nel comprendere gli input vocali. Con gli altri modelli, l’input vocale viene convertito in testo, passato a GPT-3.5/4.0 e, infine, la risposta viene riconvertita in audio. Al contrario, il nuovo modello è stato addestrato in modo più olistico, con testo, audio e immagini elaborati dalla stessa rete neurale, che in teoria dovrebbe consentire al modello di rilevare con quanti interlocutori sta interagendo e il loro tono.
La facilità d’uso
“La particolarità di GPT-4o è che offre intelligenza di livello GPT-4 a tutti, compresi i nostri utenti gratuiti“, ha affermato Mira Murati, CTO di OpenAI, durante la presentazione in live streaming. “Questa è la prima volta che facciamo un enorme passo avanti in termini di facilità d’uso.”
Durante la presentazione, OpenAI ha mostrato GPT-4o tradurre dal vivo tra inglese e italiano, aiutando un ricercatore a risolvere un’equazione lineare in tempo reale su carta e fornendo indicazioni sulla respirazione profonda a un altro dirigente di OpenAI semplicemente ascoltando i suoi respiri.
Di solito, quando OpenAI annuncia una nuova versione del suo modello ChatGPT, è bloccato dietro un paywall. Tuttavia, l’azienda ha deciso di consentire a tutti di utilizzare questa nuova tecnologia, anche se gli utenti a pagamento avranno una capacità cinque volte maggiore. La nuova tecnologia verrà implementata nelle prossime settimane.
L’assistente vocale ChatGPT arriva sui Mac
Per dimostrare le capacità del modello GPT-4o, OpenAI ha mostrato nel livestream la sua nuova app per Mac che consente a ChatGPT di essere l’assistente digitale definitivo.
OpenAI ha annunciato che rilascerà un’app desktop per Mac, come mostrato nello screenshot qui sotto. L’app verrà distribuita agli abbonati ChatGPT Plus a partire da oggi, prima di un lancio più ampio “nelle prossime settimane”.
“Con una semplice scorciatoia da tastiera (Opzione + Spazio), puoi porre immediatamente una domanda a ChatGPT“, afferma il comunicato stampa di OpenAI. Inoltre, la modalità vocale ti consente di avere conversazioni vocali con ChatGPT direttamente dal tuo Mac.
OpenAI offre già app ChatGPT per iPhone e iPad e prevede di rilasciare una versione Windows dell’app desktop entro la fine dell’anno.
OpenAI sta inoltre apportando alcuni aggiornamenti all’interfaccia web di ChatGPT, introducendo una nuova schermata iniziale, un layout dei messaggi ridisegnato e altro ancora. Il nuovo look è “progettato per essere più amichevole e colloquiale“, ha affermato la società.