Se ti piace l’idea di ChatGPT, Google Bard, Bing Chat o uno qualsiasi degli altri assistenti AI, potresti avere alcune preoccupazioni relative a privacy, costi o altro. È qui che entra in gioco Llama 2, è un modello linguistico di grandi dimensioni open source sviluppato da Meta e liberamente utilizzabile in una delle sue varianti (7 miliardi a 70 miliardi di parametri).
Dato che si tratta di un LLM open source, puoi modificarlo ed eseguirlo nel modo che preferisci, su qualsiasi dispositivo. Se vuoi provarlo su un PC Linux, Mac o Windows. In questa guida ti mostriamo proprio questo.
Come usare LLaMA 2 su PC Windows
Se utilizzi un computer Windows, non devi preoccuparti perché Llama 2 è molto semplice da configurare, anche se richiede diversi passaggi! Essenzialmente devi clonare un repository GitHub ed eseguirlo localmente.
Se hai familiarità con Stable Diffusion e lo esegui localmente tramite una Web GUI, sostanzialmente è la stessa cosa. Il repository GitHub della Web GUI per la generazione di testo di oobabooga si ispira a questo e funziona più o meno allo stesso modo.
- Scarica il repository
- Esegui start_windows.bat, start_linux.sh o start_macos.sh a seconda della piattaforma che stai utilizzando
- Seleziona la tua GPU e consentigli di installare tutto ciò di cui ha bisogno
- A configurazione terminata, puoi vedere che ti fornirà un indirizzo IP locale per connetterti alla Web GUI. Collegati ad essa col tuo browser e dovresti vedere la Web GUI. Fai clic e acquisisci familiarità con l’interfaccia utente. Potrai già usare una finestra di chat, ma non funzionerà finché non caricherai un modello.
- Per farlo, fai clic sulla scheda Modello in alto
- Sulla destra, inserisci TheBloke/Llama-2-13B-chat-GPTQ e fai clic su Scarica
- Se è in fase di download, dovresti vedere una barra di avanzamento nel prompt dei comandi mentre scarica i file rilevanti.
- Al termine, aggiorna l’elenco dei modelli a sinistra e fai clic sul modello scaricato.
- Fai clic su Carica, assicurandoti che il caricatore del modello indichi GPTQ-for-LLaMa
Il caricamento potrebbe richiedere un po’ di tempo, poiché questi modelli richiedono molta vRAM.
Ora dovresti avere Llama 2 in esecuzione sul tuo PC! Puoi interagire con esso tramite il tuo browser in un ambiente senza Internet, purché tu abbia l’hardware necessario per eseguirlo.
Come eseguire LLaMA 2 su Linux o Mac
Se hai un PC con Linux o un Mac, puoi utilizzare Ollama per eseguire Llama 2. È di gran lunga il modo più semplice per farlo tra tutte le piattaforme, poiché richiede una configurazione minima. Tutto ciò di cui hai bisogno è un Mac o un PC Linux e tempo per scaricare LLM, poiché è un file di grandi dimensioni.
La prima cosa che dovrai fare è scaricare Ollama. Funziona su Mac e Linux e semplifica il download e l’esecuzione di più modelli, incluso Llama 2. Puoi anche eseguirlo in un contenitore Docker se lo desideri, con l’accelerazione GPU pienamente supportata.
Una volta scaricato Ollama, estrailo in una cartella a tua scelta ed eseguilo.
A questo punto, esegui il comando seguente per estrarre il modello Llama 2 da 13 miliardi di parametri.
ollama pull llama2:13b
L’operazione potrebbe richiedere del tempo, quindi dagli il tempo di eseguire. È un file da 7,4 GB e potrebbe essere lento su alcune connessioni.
Successivamente, esegui il comando seguente per avviare e interagire con il modello.
ollama run lama2
Questo avvierà quindi il modello e potrai interagire con esso. Hai finito!