Alcune delle più grandi aziende tecnologiche del mondo hanno addestrato i loro modelli di IA generative su un set di dati che includeva trascrizioni di oltre 173.000 video di YouTube senza autorizzazione, ha scoperto una nuova indagine di Proof News. Il set di dati, creato da una società no-profit chiamata EleutherAI, contiene trascrizioni di video di YouTube da oltre 48.000 canali ed è stato utilizzato da Apple, NVIDIA e Anthropic. I risultati dell’indagine mettono in luce la scomoda verità dell’IA generativa: la tecnologia è in gran parte costruita sulla base di dati sottratti ai creatori senza il loro consenso o compenso.
I video YouTube sono una miniera d’oro per addestrare le IA generative
Il set di dati non include video o immagini da YouTube, ma contiene trascrizioni video dei più grandi creatori della piattaforma, tra cui Marques Brownlee e MrBeast, nonché di grandi editori di notizie come The New York Times, BBC e ABC News. Fanno parte del set di dati anche i sottotitoli dei video appartenenti a Engadget.
“Apple ha ottenuto dati per la propria intelligenza artificiale da diverse aziende“, ha pubblicato Brownlee su X. “Uno di loro ha raccolto tonnellate di dati/trascrizioni dai video di YouTube, incluso il mio“, ha aggiunto. “Questo sarà un problema in evoluzione per molto tempo.”
Un portavoce di Google ha detto a Engadget che i precedenti commenti fatti dal CEO di YouTube Neal Mohan secondo cui le aziende che utilizzano i dati di YouTube per addestrare modelli di intelligenza artificiale violerebbero i termini e il servizio della piattaforma sono ancora validi.
Finora, le aziende di intelligenza artificiale non sono state trasparenti riguardo ai dati utilizzati per addestrare i loro modelli LLM. All’inizio di questo mese, artisti e fotografi hanno criticato Apple per non aver rivelato la fonte dei dati di addestramento per Apple Intelligence, la versione dell’azienda sull’intelligenza artificiale generativa che arriverà su milioni di dispositivi Apple quest’anno.
YouTube, il più grande archivio di video al mondo, in particolare, è una miniera d’oro non solo di trascrizioni ma anche di audio, video e immagini, rendendolo un set di dati interessante per l’addestramento dei modelli di intelligenza artificiale.
Usare i video YouTube per addestrare le IA generative viola i termini del servizio
All’inizio di quest’anno, Mira Murati, Chief Technology Officer di OpenAI, ha eluso le domande del Wall Street Journal sul fatto che l’azienda utilizzasse video di YouTube per addestrare Sora, il prossimo strumento di generazione video AI di OpenAI. “Non entrerò nei dettagli dei dati utilizzati, ma erano dati disponibili al pubblico o concessi in licenza”, ha detto Murati all’epoca. Il CEO di Alphabet, Sundar Pichai, ha anche affermato che le aziende che utilizzano i dati di YouTube per addestrare i propri modelli di intelligenza artificiale violerebbero i termini di servizio della piattaforma.
Se vuoi vedere se i sottotitoli dei tuoi video YouTube o dei tuoi canali preferiti fanno parte del set di dati, vai allo strumento di ricerca di Proof News.