L’anno 2023 è appertunoto ai grandi modelli linguistici di intelligenza artificiale (LLM) come GPT-4 e Google Gemini, così come ai chatbot quali ChatGPT, Google Bard e molti altri. È stato un anno frenetico e senza precedenti di sviluppi dell’intelligenza artificiale guidati da nuove tecnologie che le persone non avevano mai sperimentato prima. Tuttavia, probabilmente non sei preparato per ciò che seguirà quest’anno con la IA multimodale.
Per quanto impressionanti siano ChatGPT, DALL-E, MusicLM e innumerevoli altri modelli di intelligenza artificiale, sono ancora unimodali: accettano un’unica modalità di input, solitamente testo. Ma l’intelligenza artificiale multimodale rappresenterà un punto di svolta in questo spazio nascente. Con la capacità di gestire più input come testo, voce, video, termici e altro ancora, i modelli di intelligenza artificiale multimodale come GPT-4V, Google Gemini e Meta ImageBind sono destinati a inaugurare una nuova e rivoluzionaria era di applicazioni IA intuitive e dinamiche.
I modelli di IA multimodale open source avranno un ruolo fondamentale
Molti modelli di intelligenza artificiale multimodale esistenti di Google, OpenAI e altri attori sono proprietari. Ma il 2024 vedrà l’ascesa di modelli sempre più aperti e facilmente accessibili a chiunque. Meta ha già un modello open source chiamato Llama 2 e Mistral AI offre gratuitamente il suo Mixtral-8x7B a tutti. In breve tempo, questi modelli di intelligenza artificiale open source abbasseranno la barriera d’ingresso per le imprese che vogliono sfruttare la potenza dell’intelligenza artificiale multimodale.
La capacità di contestualizzare gli input di testo alla luce del tono della voce, delle espressioni facciali, dei movimenti del corpo e delle interazioni passate sarà straordinaria. Catapulterà i modelli di intelligenza artificiale da strumenti per prendere appunti e produttività ad assistenti intelligenti che possono funzionare come preziosi membri del team.
Che si tratti di produttività dello spazio di lavoro, processo decisionale intelligente o altre funzionalità decisamente intuitive nelle nuove applicazioni che usciranno quest’anno, l’intelligenza artificiale multimodale ha la capacità unica di offrire molto di più dei modelli di intelligenza artificiale unimodali.
E i modelli open source accessibili a tutti saranno la chiave per realizzare l’adozione diffusa dell’IA multimodale nel 2024.
Il gaminmg sarà uno dei principali casi d’uso di una IA multimodale
Personalmente, sono molto entusiasta di vedere come i modelli di intelligenza artificiale multimodali trasformeranno i videogiochi e altre esperienze virtuali quest’anno. Nvidia ha già presentato NVIDIA ACE (Avatar Cloud Engine), un insieme di tecnologie che gli sviluppatori possono utilizzare per potenziare i personaggi secondari dei giochi (NPC) con modelli di intelligenza artificiale generativa di prim’ordine. Non passerà molto tempo prima che il prossimo grande gioco AAA ti veda interagire con qualsiasi NPC non solo attraverso il testo ma anche attraverso la tua voce.
Sono curioso di vedere come queste tecnologie entreranno in gioco nei giochi VR e in altri scenari di realtà mista.
Inworld AI è un altro motore di personaggi che consente agli sviluppatori di creare NPC in grado di interagire utilizzando il linguaggio naturale, la voce, le animazioni e le emozioni.
E non solo per i giochi: le aziende possono utilizzare questa tecnologia rivoluzionaria per creare chatbot per i clienti incredibilmente realistici in grado di reagire a ogni tua parola, movimento ed emozione.
L’intelligenza artificiale multimodale è pronta per inondare i tuoi feed dei social media.
Nonostante l’enorme potenziale dell’intelligenza artificiale multimodale, ci saranno inevitabilmente aziende che cercheranno semplicemente di trarre profitto da questa pubblicità. Di conseguenza, il termine multimodale sarà inevitabile in tutti i tuoi feed social e punti di contatto online. Che si tratti di utenti finali o imprese, nessuno è ancora in grado di comprendere come si svilupperà questa rivoluzione dell’intelligenza artificiale. Tutto quello che possiamo fare è rimanere informati e stare lontani dalle implementazioni frivole di questa nuova tecnologia.
L’impatto reale dell’intelligenza artificiale multimodale sarà guidato da sviluppatori che comprendono veramente le esigenze e i comportamenti dei clienti e le cui applicazioni sfruttano questa tecnologia per creare soluzioni mirate per affrontarli.