OpenAI ha appena annunciato di aver recentemente condotto un’anteprima su piccola scala di un nuovo strumento chiamato Voice Engine. Si tratta di una tecnologia di clonazione vocale in grado di imitare qualsiasi voce analizzando un campione audio di appena 15 secondi. L’azienda afferma che genera “discorso dal suono naturale” con “voci emotive e realistiche”.
La tecnologia si basa sull’API di sintesi vocale preesistente dell’azienda ed è in lavorazione dal 2022. OpenAI utilizza già una versione del set di strumenti per potenziare le voci preimpostate disponibili nell’attuale sintesi vocale API e la funzione “Leggi ad alta voce”. Ci sono un sacco di campioni sul blog ufficiale dell’azienda e sembrano stranamente vicini alla realtà. Ti incoraggio ad ascoltarli e ad immaginare le possibilità, sia buone che cattive.
OpenAI afferma di ritenere che questa tecnologia sia utile per l’assistenza alla lettura, la traduzione linguistica e per aiutare coloro che soffrono di condizioni del linguaggio improvvise o degenerative. L’azienda ha avviato un programma pilota della Brown University che ha aiutato un paziente con problemi di linguaggio creando un clone di Voice Engine estratto da un audio registrato per un progetto scolastico.
I problemi legati alla privacy e alla sicurezza
Nonostante i potenziali benefici, i malintenzionati abuserebbero sicuramente di questa tecnologia per impegnarsi in alcune serie sciocchezze deepfake, che sono già un problema. Con questo in mente, Voice Engine non è ancora pronto per il debutto, poiché ci sono seri problemi di privacy che devono essere soddisfatti prima di un lancio completo (un po’ come con Sora).
OpenAI riconosce che questa tecnologia presenta “gravi rischi, che sono particolarmente importanti in un anno elettorale“. L’azienda afferma di incorporare il feedback di “partner statunitensi e internazionali provenienti da tutto il governo, i media, l’intrattenimento, l’istruzione, la società civile e oltre” per garantire il lancio del prodotto con un rischio minimo. Tutti i tester in anteprima hanno accettato le politiche di utilizzo di OpenAI, che vietano la rappresentazione di un altro individuo senza consenso o diritto legale.
Inoltre, chiunque utilizzi la tecnologia dovrà rivelare al proprio pubblico che le voci sono generate dall’intelligenza artificiale. OpenAI ha implementato misure di sicurezza, come la filigrana per tracciare l’origine di qualsiasi audio e il “monitoraggio proattivo” di come viene utilizzato il sistema. Quando il prodotto verrà lanciato ufficialmente, ci sarà una “lista delle voci vietate” che rileva e impedisce gli oratori generati dall’intelligenza artificiale che sono troppo simili a figure di spicco.
Quanto costerà OpenAI Voice Engine
Per quanto riguarda quando avverrà il lancio, OpenAI rimane a bocca chiusa. TechCrunch ha scoperto alcuni potenziali dati sui prezzi e sembra che supererà i concorrenti nello spazio come ElevenLabs. Voice Engine potrebbe costare 15 dollari per milione di caratteri, ovvero circa 162.500 parole. È più o meno la durata di Shining di Stephen King. Sembra certamente un modo economico per realizzare un audiolibro. I materiali di marketing fanno riferimento anche a una versione “HD” che costa il doppio, ma la società non ha spiegato in dettaglio come funzionerà.
OpenAI ha fatto grandi passi questa settimana. Ha appena annunciato un’altra partnership con la sua migliore amica Microsoft per costruire un supercomputer basato sull’intelligenza artificiale chiamato “Stargate”. Secondo quanto riferito, il progetto costerà la cifra esorbitante di 100 miliardi di dollari.