Mistral AI, uno sviluppatore leader di Large Language Model (LLM) focalizzato sulla creazione di intelligenza artificiale open source, ha recentemente presentato il suo nuovo modello Mixtral 8x7B. Questo modello utilizza una combinazione di tecniche esperte per ottenere un parlato fluido e dal suono naturale in risposta all’input umano. Inoltre, Guillaume Lample, co-fondatore e capo scienziato di Mistral AI, ha rivelato una serie di benchmark che affermano che 8x7B può superare sia Llama 2 70B che GPT 3.5.
Very excited to release our second model, Mixtral 8x7B, an open weight mixture of experts model.
Mixtral matches or outperforms Llama 2 70B and GPT3.5 on most benchmarks, and has the inference speed of a 12B dense model. It supports a context length of 32k tokens. (1/n) https://t.co/WdGTSARKC1 pic.twitter.com/LQhXSlZ9jO— Guillaume Lample @ ICLR 2024 (@GuillaumeLample) December 11, 2023
GPT 3-5 di OpenAI è stato storicamente il gold standard per i LLM. Tuttavia, Mistral AI è qui per cambiare la situazione con un modello completamente open source e open-weight che supera il modello GPT 3.5 di OpenAI nella maggior parte dei benchmark.
Mistral ha rilasciato il suo nuovo modello Mixtral 8x7B utilizzando una licenza Apache 2.0. Attualmente è nella versione 0.1. Tuttavia, i primi utilizzatori rimangono sbalorditi dalla sua velocità e precisione. Come la precedente iterazione di Mixtral, utilizza un modello di miscela sparsa di esperti (SMoE).
Mixtral 8x7B può gestire fino a 32.000 token di contesto, può parlare inglese, spagnolo, francese, italiano e tedesco, può generare codice e può seguire le istruzioni abbastanza bene da guadagnare un punteggio di 8,3 sul benchmark MT. Queste funzionalità sono eccellenti per gli attuali LLM, più o meno in linea con i modelli GPT 3.5 di OpenAI o Llama 2 di Meta.
Una delle caratteristiche più notevoli di Mixtral 8x7B è il suo ridotto ingombro digitale. A differenza di altri modelli, che richiedono hardware potente per funzionare in modo efficace, Mixtral 8x7B può essere eseguito su PC di piccole dimensioni senza GPU dedicate.
Mixtral 8x7B è inoltre privo delle solite “guardie di sicurezza” presenti in altri LLM. Altri LLM come OpenAI e Llama 2 dispongono di severi filtri di contenuto che rifiutano la generazione di messaggi che le società madri hanno designato come dannosi. Tuttavia, Mixtral 8x7B non dispone di tale funzionalità. Ciò potrebbe anche diventare un’arma a doppio taglio per Mistral poiché i politici e i regolatori potrebbero cercare di rafforzare il loro modello poiché manca dei tradizionali filtri di contenuto. Sebbene sia possibile distribuire Mixtral 8x7B sull’interfaccia del concorrente ChatGPT HuggingFace, HuggingFace ha un filtro dei contenuti.
Mistral sta anche lavorando a diversi progetti relativi all’intelligenza artificiale per rafforzare la propria posizione nella più ampia comunità LLM. Questi progetti includono una versione alpha di Mistral-medium tramite l’API di HyperWrite. Questi sviluppi suggeriscono che Mistral sta lavorando su una versione più ampia e stabile dell’LLM che può essere utilizzata per progetti di generazione più complessi.
Nel complesso, l’ultima creazione di Mistral AI è un passo nella giusta direzione per i LLM. Puoi provare Mixtral 8x7B utilizzando il chatbot di HuggingFace o eseguirlo in modo nativo sul tuo PC utilizzando LM Studio. Se sei interessato a modelli linguistici di grandi dimensioni, Mistral AI dovrebbe essere sul tuo radar!