Microsoft ovviamente non si affida solo ad OpenAI per sviluppare nuovi strumenti di intelligenza artificiale. In questi giorni Microsoft Research Asia ha presentato un nuovo strumento sperimentale di intelligenza artificiale chiamato VASA-1 che può acquisire un’immagine fissa di una persona – o il disegno di una persona – e un file audio esistente per creare da essa un volto parlante realistico in tempo reale.
Ha la capacità di generare espressioni facciali e movimenti della testa per un’immagine fissa esistente e movimenti delle labbra appropriati per abbinare un discorso o una canzone. I ricercatori hanno caricato un sacco di esempi sulla pagina del progetto e i risultati sembrano abbastanza buoni da poter ingannare le persone facendole credere che siano reali.
Microsoft VASA-1 è un potenziale enorme per i deepfake
Anche se i movimenti delle labbra e della testa negli esempi potrebbero sembrare un po’ robotici e fuori sincrono a un esame più attento, è comunque chiaro che la tecnologia potrebbe essere utilizzata in modo improprio per creare facilmente e rapidamente video deepfake di persone reali.
I ricercatori stessi sono consapevoli di questo potenziale e hanno deciso di non rilasciare “una demo online, un’API, un prodotto, ulteriori dettagli di implementazione o qualsiasi offerta correlata” finché non saranno sicuri che la loro tecnologia “sarà utilizzata in modo responsabile e in conformità con le corrette procedure”. regolamenti.”
Non hanno, tuttavia, dichiarato se intendono implementare determinate misure di salvaguardia per evitare che malintenzionati li utilizzino per scopi nefasti, come creare deepfake porno o campagne di disinformazione.
I ricercatori ritengono che la loro tecnologia offra moltissimi vantaggi nonostante il suo potenziale uso improprio. Hanno affermato che Microsoft VASA-1 può essere utilizzato per migliorare l’equità educativa, nonché per migliorare l’accessibilità per coloro che hanno difficoltà di comunicazione, magari dando loro accesso a un avatar in grado di comunicare per loro. Può anche fornire compagnia e supporto terapeutico a coloro che ne hanno bisogno, hanno detto, insinuando che VASA-1 potrebbe essere utilizzato in programmi che offrono accesso a personaggi IA con cui le persone possono parlare.
Secondo il documento pubblicato con l’annuncio, Microsoft VASA-1 è stato addestrato sul set di dati VoxCeleb2, che contiene “oltre 1 milione di espressioni per 6.112 celebrità” estratte dai video di YouTube. Anche se lo strumento è stato addestrato su volti reali, funziona anche su foto artistiche come la Monna Lisa, che i ricercatori hanno combinato in modo divertente con un file audio della resa virale di Anne Hathaway dei Paparazzi di Lil Wayne. È così delizioso che vale la pena guardarlo, anche se dubiti di cosa possa fare di buono una tecnologia come questa.
Insomma, Microsoft VASA-1 ci porta molto più vicino alla visione che J.K. Rowling ha avuto per le foto animate parlanti nell’universo di Harry Potter.