MusicLM è l’ultima IA generativa di Google e può trasformare descrizioni testuali di varia complessità in musica ad alta fedeltà.
MusicLM definisce il processo di generazione di musica condizionale come un’attività di modellazione gerarchica da sequenza a sequenza e genera musica a 24 kHz che rimane coerente per diversi minuti.
I modelli text-to-music non sono nuovi, ma Google afferma che “MusicLM supera i sistemi precedenti sia in termini di qualità audio che di aderenza alla descrizione del testo“. I ricchi esempi di didascalie riportati di seguito hanno generato brani audio di 30 secondi:
“La colonna sonora principale di un gioco arcade. È veloce e ottimista, con un orecchiabile riff di chitarra elettrica. La musica è ripetitiva e facile da ricordare, ma con suoni inaspettati, come colpi di piatti o rulli di tamburi”.
“Epica colonna sonora con strumenti orchestrali. Il pezzo crea tensione, crea un senso di urgenza. Un coro a cappella cantato all’unisono, crea un senso di potenza e forza“.
“Questo è un brano musicale r&b/hip-hop. C’è un rap vocale maschile e una voce femminile che canta in modo simile al rap. Il ritmo è composto da un pianoforte che suona gli accordi della melodia con un accompagnamento di batteria elettronica. L’atmosfera del pezzo è giocosa ed energica. Questo pezzo potrebbe essere utilizzato nella colonna sonora di un film drammatico/programma televisivo del liceo. Potrebbe anche essere suonato alle feste di compleanno o alle feste in spiaggia”.
Una demo particolare e divertente sta prendendo una descrizione di un dipinto trasformandola in musica: Napoleon Crossing the Alps di Jacques-Louis David: “La composizione mostra una visione fortemente idealizzata della vera traversata che Napoleone e il suo esercito fecero attraverso le Alpi attraverso il Gran San Bernardo nel maggio 1800“.
MusicLM è in grado di generare vari generi e persino replicare il “livello di esperienza del musicista” (ad esempio, principiante, professionista intermedio). In futuro, Google potrebbe esplorare la possibilità di generare testi, migliorare la qualità vocale e frequenze di campionamento più elevate.
Al momento però Google “non ha intenzione di rilasciare modelli a questo punto“, citando la necessità di più lavoro.
Questa enfasi nel creare IA generative è stata rafforzata e di molto negli ultimi tempi dopo che OpenAI e il suo ChatGPT hanno fatto molto scalpore per la qualità del progetto, mettendo a serio rischio il suo business multi miliardario della pubblicità online. Google dal canto suo ha tutto ciò di cui ha bisogno per contrastare ChatGPT ma ci vuole andare un po’ più cauta.