Lo sviluppo delle IA generative sta accelerando sempre di più ma purtroppo questo richiede un’enorme quantità di dati che, spesso, vengono prelevati anche da fonti che hanno espressamente richiesto la loro esclusione.
Un esempio di questo comportamento errato lo troviamo con l’uso di materiale protetto da copyright, tanto che molti scrittori stanno facendo causa alle Big Tech dell’IA. Ma un altro esempio (questo non illegale, come vedremo) lo abbiamo con il web liberamente accessibile e con aziende, come Perplexity, che sfrutta qualsiasi dato per l’addestramento delle IA generative.
Le IA generative sono affamate di dati, anche di quelli espressamente “non autorizzati”
Perplexity, un’azienda che descrive il suo prodotto come “un motore di ricerca AI gratuito“, è stata criticata negli ultimi giorni. Poco dopo che Forbes l’ha accusata di aver rubato la sua storia e di averla ripubblicata su più piattaforme, Wired ha riferito che Perplexity ha ignorato il Robots Exclusion Protocol, o robots.txt, e ha cancellato il suo sito web e altre pubblicazioni Condé Nast. Anche il sito web tecnologico The Shortcut ha accusato la società di aver cancellato i suoi articoli. Ora, Reuters ha riferito che Perplexity non è l’unica azienda di intelligenza artificiale che bypassa i file robots.txt e analizza i siti Web per ottenere contenuti che vengono poi utilizzati per addestrare le proprie tecnologie.
Reuters ha detto di aver visto una lettera indirizzata agli editori di TollBit, una startup che li accoppia con aziende di intelligenza artificiale in modo che possano raggiungere accordi di licenza, avvertendoli che “agenti di intelligenza artificiale provenienti da più fonti (non solo da una società) stanno scegliendo di aggirare i robot. txt per recuperare il contenuto dai siti.”
Il file robots.txt contiene istruzioni per i web crawler su quali pagine possono e non possono accedere. Gli sviluppatori web utilizzano il protocollo dal 1994, ma la conformità è completamente volontaria.
Anche le Big Tech delle IA generative sono coinvolte
La lettera di TollBit non nomina alcuna azienda, ma Business Insider afferma di aver appreso che anche OpenAI e Anthropic, i creatori rispettivamente dei chatbot ChatGPT e Claude, stanno bypassando i segnali robots.txt. Entrambe le società avevano precedentemente affermato di rispettare le istruzioni “non scansionare” che i siti web inseriscono nei loro file robots.txt.
Durante la sua indagine, Wired ha scoperto che una macchina su un server Amazon “certamente gestito da Perplexity” stava aggirando le istruzioni robots.txt del suo sito web. Per confermare se Perplexity stesse eliminando i suoi contenuti, Wired ha fornito allo strumento dell’azienda i titoli dei suoi articoli o brevi suggerimenti che descrivono le sue storie. Secondo quanto riferito, lo strumento ha prodotto risultati che parafrasano fedelmente i suoi articoli “con un’attribuzione minima”. E a volte generava persino riassunti imprecisi delle sue storie: Wired afferma che il chatbot ha affermato falsamente di aver riferito di uno specifico poliziotto della California che aveva commesso un crimine in un caso.
In un’intervista con Fast Company, il CEO di Perplexity Aravind Srinivas ha dichiarato alla pubblicazione che la sua azienda “non sta ignorando il protocollo di esclusione dei robot per poi mentire al riguardo“. Ciò non significa, tuttavia, che non tragga vantaggio dai crawler che ignorano il protocollo. Srinivas ha spiegato che l’azienda utilizza web crawler di terze parti oltre ai propri e che il crawler identificato da Wired era uno di questi. Quando Fast Company ha chiesto se Perplexity avesse detto al fornitore del crawler di interrompere lo scraping del sito web di Wired, ha risposto solo che “è complicato”.
Srinivas ha difeso le pratiche della sua azienda, dicendo alla pubblicazione che il Robots Exclusion Protocol “non ha valenza legale” e suggerendo che editori e aziende come la sua potrebbero dover stabilire un nuovo tipo di relazione. Secondo quanto riferito, ha anche insinuato che Wired abbia utilizzato deliberatamente i suggerimenti per far sì che il chatbot di Perplexity si comportasse come faceva, in modo che gli utenti ordinari non ottengano gli stessi risultati. Per quanto riguarda i riassunti imprecisi generati dallo strumento, Srinivas ha affermato: “Non abbiamo mai detto di non aver mai avuto allucinazioni“.