OpenAI e il suo più grande sostenitore, Microsoft, stanno affrontando diverse cause legali che li accusano di utilizzare opere protette da copyright di altre persone senza permesso per addestrare i primi modelli linguistici (LLM). E sulla base di ciò che OpenAI ha dichiarato alla House of Lords Communications and Digital Select Committee, in futuro potremmo vedere più azioni legali contro le società. Sarebbe “impossibile addestrare i principali modelli di intelligenza artificiale di oggi senza utilizzare materiali protetti da copyright“, ha scritto OpenAI nella sua presentazione di prove scritte (PDF) per l’indagine della commissione sugli LLM, come riportato per la prima volta da The Guardian.
L’azienda ha spiegato che ciò è dovuto al fatto che oggi il copyright “copre praticamente ogni tipo di espressione umana, inclusi post di blog, fotografie, post di forum, frammenti di codice software e documenti governativi“. Ha aggiunto che “imitare i dati di addestramento su libri e disegni di pubblico dominio creati più di un secolo fa potrebbe produrre un esperimento interessante, ma non fornirebbe sistemi di intelligenza artificiale in grado di soddisfare le esigenze dei cittadini di oggi”.
OpenAI ha inoltre insistito sul fatto di rispettare le leggi sul copyright quando addestra i suoi modelli. In un nuovo post sul suo blog realizzato in risposta alla causa del New York Times, ha affermato che l’uso di materiali Internet disponibili al pubblico per addestrare l’intelligenza artificiale rientra nella dottrina del fair use.
Ha ammesso, tuttavia, che c’è “ancora del lavoro da fare per sostenere e dare potere ai creatori”. L’azienda ha parlato dei modi in cui consente agli editori di impedire al web crawler GPTBot di accedere ai loro siti web. Ha inoltre affermato che sta sviluppando ulteriori meccanismi che consentano ai titolari dei diritti di rinunciare alla formazione e che si sta impegnando con loro per trovare accordi reciprocamente vantaggiosi.
Le cause contro OpenAI sono già tante e di alto rilievo
In alcune delle cause intentate contro OpenAI e Microsoft, i querelanti accusano le società di rifiutarsi di pagare gli autori per il loro lavoro mentre costruivano un’industria da miliardi di dollari e godevano di enormi guadagni finanziari da materiali protetti da copyright. Il caso più recente presentato da una coppia di autori di saggistica ha sostenuto che le società avrebbero potuto esplorare opzioni di finanziamento alternative, come la partecipazione agli utili, ma hanno invece “deciso di rubare“.
OpenAI non ha affrontato queste particolari cause legali, ma ha fornito una risposta diretta alla denuncia del New York Times che lo accusa di utilizzare gli articoli di notizie pubblicati senza autorizzazione. La pubblicazione non racconta la storia completa, ha detto. Stava già negoziando con il Times una “partnership di alto valore” che gli avrebbe dato accesso ai resoconti della pubblicazione. Apparentemente le due parti erano ancora in contatto fino al 19 dicembre e OpenAI ha scoperto la causa solo a dicembre leggendone sul Times.
Nella denuncia presentata dal giornale, si citavano casi in cui ChatGPT forniva agli utenti “estratti quasi letterali” di articoli protetti da paywall. OpenAI ha accusato la pubblicazione di manipolare intenzionalmente i prompt, come includere lunghi estratti di articoli nella sua interazione con il chatbot per indurlo a rigurgitare contenuti. Accusa anche il Times di selezionare esempi da molti tentativi. OpenAI ha affermato che la causa intentata dal Times non ha alcun merito, ma spera comunque in una “partnership costruttiva” con la pubblicazione.