L’esecuzione di modelli linguistici di grandi dimensioni (LLM) a livello locale può essere estremamente utile, sia che tu voglia provare e testare gli LLM o integrarli in delle app. Ma configurare il tuo ambiente di lavoro e far funzionare i LLM sul tuo computer non è banale. Quindi, come è possibile eseguire LLM localmente senza problemi? È qui che entra in gioco Ollama, una piattaforma che rende lo sviluppo locale con modelli linguistici di grandi dimensioni open source un gioco da ragazzi.
Ollama è uno strumento basato su riga di comando (esistono strumenti per avere una UI semplice e piacevole in stile ChatGPT) per il download e l’esecuzione di LLM open source come Llama 3, Phi-3, Mistral, Google Gemma e altri. Semplifica la gestione i pesi dei modelli, le configurazioni e i set di dati in un unico pacchetto controllato da un Modelfile. Tutto quello che devi fare è eseguire alcuni comandi per installare i LLM open source supportati sul tuo sistema e utilizzarli.
Ollama stesso è open source e consente una perfetta integrazione con un modello linguistico localmente o dal tuo server. Ollama funziona perfettamente su Windows, Mac e Linux. Chiaramente, in base al modello LLM che si sceglie, necessita di una potenza hardware differente (i modelli da 7B possono essere eseguito anche con una iGPU AMD 780M e 8 GB di RAM).
Scaricare Ollama
Come primo passo, devi scaricare Ollama sul tuo computer.
Per eseguire il download, puoi visitare il repository GitHub ufficiale e seguire i collegamenti per il download. Oppure visita il sito Web ufficiale e scarica il programma di installazione se utilizzi un computer Mac o Windows. In alternativa, su Linux puoi usare il terminale e digitare il seguente comando:
curl -fsSL https://ollama.com/install.sh |
sh
Il processo di installazione richiede in genere alcuni minuti. Durante il processo di installazione, qualsiasi GPU NVIDIA/AMD verrà rilevata automaticamente, così come le NPU ufficialmente supportate nei processori Intel e AMD.
Scaricare e usare i modelli LLM
Successivamente, puoi visitare la libreria dei modelli per controllare l’elenco di tutti gli LLM attualmente supportati. Il modello predefinito scaricato è quello con il tag latest
. Nella pagina di ciascun modello è possibile ottenere maggiori informazioni come la dimensione e la quantizzazione utilizzata.
Puoi cercare nell’elenco dei tag per individuare il modello che desideri eseguire. Per ciascuna famiglia di modelli, in genere esistono modelli fondamentali di diverse dimensioni e varianti ottimizzate per le istruzioni. Uno dei modelli più popolari scaricati in questo momento è Llama 3 di Meta.
Per scaricare effettivamente il modello, devi aprire il terminale (CMD su Windows) ed eseguirlo utilizzando il comando ollama run "nomemodello"
. La prima volta che lo esegui verrà inizializzato il download prima di poter iniziare a interagire direttamente con il modello.
Modelli | Parametri | Dimensioni | Comando |
---|---|---|---|
Llama 3 | 8B | 4.7GB | ollama run llama3 |
Llama 3 | 70B | 40GB | ollama run llama3:70b |
Phi-3 | 3.8B | 2.3GB | ollama run phi3 |
Mistral | 7B | 4.1GB | ollama run mistral |
Neural Chat | 7B | 4.1GB | ollama run neural-chat |
Starling | 7B | 4.1GB | ollama run starling-lm |
Code Llama | 7B | 3.8GB | ollama run codellama |
Llama 2 Uncensored | 7B | 3.8GB | ollama run llama2-uncensored |
LLaVA | 7B | 4.5GB | ollama run llava |
Gemma | 2B | 1.4GB | ollama run gemma:2b |
Gemma | 7B | 4.8GB | ollama run gemma:7b |
Solar | 10.7B | 6.1GB | ollama run solar |
L’utilizzo base avviene attraverso il terminale. Basta digitare il prompt e attendere che il modello LLM dia una risposta.
In quest’altra guida approfondita vi mostro come utilizzare un server web per eliminare la necessità del terminale e sfruttare una UI molto semplice e pulita derivata da quella di ChatGPT.