Stability AI ha appena presentato Stable Audio 2.0, una versione aggiornata della sua piattaforma di generazione musicale. Questo sistema consente agli utenti di creare fino a tre minuti di audio tramite prompt di testo. È più o meno la durata di una canzone vera e propria, quindi creerà anche un’introduzione, una progressione completa di accordi e un outro.
Innanzitutto, la buona notizia. Tre minuti sono enormi. La versione precedente del software raggiungeva il limite massimo di 90 secondi. Immagina solo la finta canzone di compleanno che potresti realizzare nello stile di Santana. Un altro vantaggio? Lo strumento è gratuito e disponibile al pubblico attraverso il sito Web dell’azienda, quindi provalo.
Funziona principalmente tramite prompt di testo, ma c’è un’opzione per caricare una clip audio: il sistema analizzerà la clip e produrrà qualcosa di simile. Tutto l’audio caricato deve essere privo di copyright, quindi questo non ha lo scopo di imitare qualcosa che già esiste. Piuttosto, potrebbe essere utile, ad esempio, per canticchiare una parte di batteria o estendere una clip di 20 secondi a qualcosa di più lungo.
Il traguardo è ancora lontano
Ora, la brutta notizia. Questa è ancora musica generata dall’intelligenza artificiale. È bello come argomento di conversazione e come emblema di un possibile futuro che è fantastico per gli armeggiatori e negativo per i musicisti, ma questo è tutto. Le canzoni possono sembrare davvero belle, all’inizio, fino a quando non le si ascolta in maniera approfondita. Poi le cose diventano un po’ inquietanti.
Ad esempio, il sistema ama aggiungere voci, ma non in nessuna lingua umana conosciuta. Immagino che sia nella lingua che compone il testo nelle immagini generate dall’intelligenza artificiale. Le voci sembrano persone reali, e altre volte suonano cantori gregoriani filtrati attraverso lo spazio. The Verge ha definito la voce “senz’anima e strana”, paragonandola ai suoni delle balene.
Stable Audio 2.0 commette gli stessi strani piccoli errori commessi da tutti questi sistemi, indipendentemente dal tipo di output. Le parti possono svanire nel nulla, sostituite con qualcos’altro. A volte gli elementi melodici raddoppieranno dal nulla, come una versione audio di quelle dita extra nelle immagini generate dall’intelligenza artificiale.
Stable Audio 2.0 è addestrato su oltre 800.000 file audio
Stability AI ha affermato in un comunicato stampa che Stable Audio 2.0 è addestrato sui dati di AudioSparx, che ha una libreria di oltre 800.000 file audio. Stability AI sostiene che agli artisti di AudioSparx è stato consentito di rinunciare al proprio materiale per addestrare il modello. La formazione sull’audio protetto da copyright è stata uno dei motivi per cui l’ex vicepresidente per l’audio di Stability AI, Ed Newton-Rex, ha lasciato l’azienda poco dopo il lancio di Stable Audio.
Per questa versione, Stability AI afferma di aver collaborato con Audible Magic per utilizzare la sua tecnologia di riconoscimento dei contenuti per tracciare e bloccare l’accesso alla piattaforma di materiale protetto da copyright.
Stable Audio 2.0 è migliore della versione precedente nel far suonare le canzoni come canzoni (o anche di servizi concorrenti), ma non è ancora buono abbastanza. Se il modello insiste nell’aggiungere una sorta di voce, forse la prossima versione avrà un linguaggio più distinguibile.