I chatbot AI sono relativamente vecchi per gli standard tecnologici, ma la loro versione evoluta più recente, guidati da ChatGPT di OpenAI, Bing Chat di Microsoft e Bard di Google, sono di gran lunga più capace dei loro antenati, non sempre per ragioni positive: la recente esplosione nello sviluppo dell’IA ha già creato preoccupazioni per la disinformazione, il plagio, la privacy e il malware generato dalla macchina. Quali problemi potrebbe porre l’IA generativa per la privacy dell’utente medio di Internet?
La risposta, secondo gli esperti, è in gran parte una questione di come questi bot vengono addestrati e quanto intendiamo interagire con loro.
Per replicare le interazioni simili a quelle umane, i chatbot AI vengono addestrati su enormi quantità di dati, una parte significativa dei quali deriva da repository come Common Crawl.
Come suggerisce il nome, Common Crawl ha accumulato anni e petabyte di dati semplicemente eseguendo la scansione e lo scraping del Web aperto. “Questi modelli si stanno allenando su grandi set di dati disponibili pubblicamente su Internet“, ha affermato Megha Srivastava, dottoranda presso il dipartimento di informatica di Stanford ed ex dipendente presso Microsoft Research.
I dati delle persone potrebbero finire nelle conversazioni con ChatGPT, Bing Chat e Google Bard, invadendo la loro privacy
Anche se ChatGPT e Bard utilizzano quella che chiamano una porzione “filtrata” dei dati di Common Crawl per tutelare la privacy (ci sono voci secondo cui Bard avrebbe usato i dati di ChatGPT per l’addestramento), la vastità del modello rende “impossibile per chiunque esaminare i dati e disinfettarli da quelli privati della gente“, secondo Srivastava.
Anche se potrebbe essere difficile accedervi per l’utente medio, è possibile che le informazioni siano state raschiate in un set di addestramento e possano essere rigurgitate da quel chatbot nelle corrette circostanze. E un bot che sputa le informazioni di contatto effettive di qualcuno non è in alcun modo una preoccupazione teorica.
L’editorialista di Bloomberg Dave Lee ha pubblicato su Twitter che, quando qualcuno ha chiesto a ChatGPT di chattare sulla piattaforma di messaggistica crittografata Signal, ha fornito il suo numero di telefono esatto.
Questo tipo di interazione è probabilmente un caso limite, ma vale comunque la pena considerare le informazioni a cui hanno accesso questi modelli di apprendimento. “È improbabile che OpenAI voglia raccogliere informazioni specifiche come i dati sanitari e attribuirle a individui per addestrare i suoi modelli“, ha detto a Engadget David Hoelzer, un membro dell’organizzazione per la sicurezza SANS Institute. “Ma potrebbero essere inavvertitamente lì dentro? Assolutamente.“