Stability AI, la startup che sviluppa Stable Diffusion, lo strumento che utilizza l’intelligenza artificiale generativa per creare immagini da istruzioni di testo, ha svelato Stable Diffusion 3, un nuovo modello di prossima generazione. Stability AI ha affermato che il nuovo modello, che non è ancora ampiamente disponibile, migliora la qualità dell’immagine, funziona meglio con istruzioni contenenti più argomenti e può inserire testo più accurato come parte dell’immagine generata, qualcosa che i precedenti modelli Stable Diffusion non erano eccezionali.
Il CEO di Stability AI, Emad Mosque, ha pubblicato alcuni esempi di ciò su X.
https://x.com/EMostaque/status/1760660709308846135
Stability afferma che la sua famiglia di modelli Stable Diffusion 3 (che prende descrizioni di testo chiamate “prompt” e le trasforma in immagini corrispondenti) varia da 800 milioni a 8 miliardi di parametri. La gamma di dimensioni consente l’esecuzione locale di diverse versioni del modello su una varietà di dispositivi, dagli smartphone ai server. La dimensione del parametro corrisponde approssimativamente alla capacità del modello in termini di quantità di dettagli che può generare. I modelli più grandi richiedono anche più VRAM sugli acceleratori GPU per funzionare.
Come ha affermato Mostaque, la famiglia Stable Diffusion 3 utilizza l’architettura del trasformatore di diffusione, che è un nuovo modo di creare immagini con l’intelligenza artificiale che sostituisce i soliti elementi costitutivi delle immagini (come l’architettura U-Net) con un sistema che funziona su piccoli pezzi di la foto. Il metodo è stato ispirato dai trasformatori, che sono bravi a gestire schemi e sequenze. Questo approccio non solo aumenta in modo efficiente, ma, secondo quanto riferito, produce anche immagini di qualità superiore.
Stable Diffusion 3 si fonda su nuovi principi di sicurezza
L’annuncio arriva pochi giorni dopo che il più grande rivale di Stability AI, OpenAI, ha presentato Sora, un nuovissimo modello di intelligenza artificiale in grado di generare video quasi realistici e ad alta definizione da semplici istruzioni di testo. Sora, che non è ancora disponibile al grande pubblico, ha suscitato preoccupazioni circa il suo potenziale nel creare filmati falsi dall’aspetto realistico. OpenAI ha affermato che sta collaborando con esperti in disinformazione e contenuti che incitano all’odio per testare lo strumento prima di renderlo ampiamente disponibile.
Stability AI ha affermato che sta facendo lo stesso. “Noi abbiamo adottato e continuiamo ad adottare misure ragionevoli per prevenire l’uso improprio di Stable Diffusion 3 da parte di malintenzionati“, ha scritto la società in un post sul blog sul suo sito web. “Collaborando continuamente con ricercatori, esperti e la nostra comunità, ci aspettiamo di innovare ulteriormente con integrità mentre ci avviciniamo al rilascio pubblico del modello”.
Non abbiamo accesso a Stable Diffusion 3 (SD3), ma dai campioni che abbiamo trovato pubblicati sul sito web di Stability e sugli account dei social media associati, le generazioni appaiono al momento più o meno paragonabili ad altri modelli di sintesi delle immagini all’avanguardia, inclusi i già citati DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney e Google Imagen.