xAI, il concorrente OpenAI fondato da Elon Musk, ha introdotto la prima versione di Grok in grado di elaborare informazioni visive. Grok-1.5V è il modello AI multimodale di prima generazione dell’azienda, che non solo elabora testo, ma anche “documenti, diagrammi, grafici, schermate e fotografie”.
Nell’annuncio di xAI, sono stati forniti alcuni esempi di come le sue capacità possano essere utilizzate nel mondo reale. Puoi, ad esempio, mostrargli la foto di un diagramma di flusso e chiedere a Grok di tradurlo in codice Python, fargli scrivere una storia basata su un disegno e persino fargli spiegare un meme che non riesci a capire. Ehi, non tutti riescono a tenere il passo con tutto ciò che Internet sputa.
La nuova versione arriva solo un paio di settimane dopo che l’azienda ha presentato Grok-1.5. Quel modello è stato progettato per essere migliore nella codifica e nella matematica rispetto al suo predecessore, nonché per essere in grado di elaborare contesti più lunghi in modo da poter controllare i dati da più fonti per comprendere meglio determinate richieste. xAI ha affermato che i suoi primi tester e gli utenti saranno presto in grado di sfruttare le funzionalità di Grok-1.5V, sebbene non abbia fornito una tempistica esatta per il suo lancio.
Oltre a introdurre Grok-1.5V, l’azienda ha anche rilasciato un set di dati di riferimento chiamato RealWorldQA. Puoi utilizzare una qualsiasi delle 700 immagini di RealWorldQA per valutare i modelli di intelligenza artificiale: ogni elemento viene fornito con domande e risposte che puoi facilmente verificare, ma che potrebbero ostacolare modelli multimodali come Grok.
xAI ha affermato che la sua tecnologia ha ricevuto il punteggio più alto quando l’azienda l’ha testata con RealWorldQA rispetto a concorrenti, come GPT-4V di OpenAI e Google Gemini Pro 1.5.