"Web scraping" e data protection: l'indagine del Garante Privacy

"Web scraping" e data protection: l'indagine del Garante Privacy
Lo scorso 22 novembre il Garante per la Protezione dei Dati Personali (“Garante” o “Garante Privacy”) ha aperto un’indagine sull’utilizzo della tecnica con cui vengono raccolti i dati personali on line, con la finalità di addestrare gli algoritmi dei sistemi di intelligenza artificiale.

Cosa è il web scraping? 

Occorre partire dalla definizione di scraping e di web scraping per poter meglio comprendere ciò di cui si sta occupando il Garante. Lo scraping è la tecnica informatica con cui si estraggono i dati dagli output generati da un programma; se ciò avviene sui siti internet, prende il nome di web scraping. Solitamente, la procedura avviene in tre passaggi: nel primo lo scraper invia una richiesta al sito web; dopo aver ricevuto una risposta, esso analizza il documento HTML ricevuto per cercare una specifica sequenza di dati; infine, una volta estrapolati, questi vengono convertiti nel formato progettato dall’autore dello scraper. Questa tecnica solitamente viene utilizzata dai sistemi di intelligenza artificiale per mettere a disposizione della macchina ingenti quantità di dati, con cui poter addestrare gli algoritmi. 

L’indagine

L’attività intrapresa dall’Autorità è volta alla verifica dell’adozione di adeguate misure di sicurezza per impedire una raccolta massiva di dati personali dai siti internet, poi utilizzati per il training degli algoritmi da parte di soggetti terzi. Tale indagine riguarda tutti i soggetti pubblici e privati, stabiliti o che offrono servizi in Italia, che operano come titolari del trattamento. Il Garante ha quindi invitato le associazioni di categoria interessate, le associazioni di tutela dei consumatori, gli esperti del settore e gli accademici ad una consultazione pubblica, affinché apportino il loro importante contributo sul tema inviando i propri commenti entro 60 giorni dalla data di pubblicazione dell’avviso di consultazione sul sito dell’Autorità.

Le precedenti pronunce del Garante in materia di web scraping

L’Autorità Garante si occupa già da anni di questa pratica.

L’utilizzo della pratica di web scraping pone infatti alcuni rilevanti criticità rispetto alla normativa sulla data protection, di cui al Regolamento 2016/679 (“GDPR”): in particolare, è stata oggetto di valutazione del Garante la liceità di tale trattamento, che, proprio per le modalità automatizzate e massiva in cui viene condotta, si pone apparentemente in contrasto con il principio di trasparenza e di limitazione delle finalità del trattamento.

  • Il primo provvedimento emanato dal Garante Privacy, n. 4/2016, è addirittura antecedente all’entrata in vigore del GDPR. In tale pronuncia, il Garante si opponeva all’utilizzo di software in grado di reperire, “in maniera sistematica e indiscriminata”, dati e informazioni per realizzare elenchi telefonici.

Di conseguenza, aveva sanzionato la società gestore di un sito che raccoglieva dati tramite l’utilizzo di script automatici. Interessante notare come, pur sulla base di un quadro normativo totalmente diverso (quello del D.Lgs. n. 196/2003, “Codice Privacyante novella) il Garante affermasse che l’agevole reperibilità online di informazioni personali, quali i recapiti telefonici, non autorizzasse il trattamento dei dati per qualsivoglia scopo, ma soltanto per finalità specifiche sottese alla loro pubblicazione.

  • La pronuncia probabilmente più celebre in tema di web scraping risale al provvedimento n. 50/2022, con cui il Garante ha sanzionato Clearview AI per 20 milioni di euro. La società, che fornisce software di riconoscimento facciale, con un database attuale di oltre 30 miliardi di immagini, compie attività di web scraping da fonti pubbliche, accessibili senza registrazioni (quali social media e video), creando profili basati sui dati biometrici estratti, che sono poi arricchiti con ulteriori informazioni come la geolocalizzazione. Dopo l’indagine condotta, il Garante ha imposto l’ingente multa nei confronti della società per plurime inosservanze del GDPR, tra cui la violazione dei principi di liceità del trattamento, di limitazione delle finalità e della conservazione e la violazione del principio di trasparenza del trattamento. Anche in questa circostanza, l’Autorità ha ribadito che l’eventuale natura pubblica delle immagini non è sufficiente per far ritenere che gli interessati possano ragionevolmente attendersi un loro utilizzo per finalità di riconoscimento facciale.
  • Infine, anche nello scorso mese di maggio il Garante ha emesso un provvedimento, n. 201/2023, in base al quale ha confermato la stessa interpretazione. Nel caso di specie, un sito web metteva a disposizione degli utenti un elenco telefonico costituito da numeri estratti tramite web scraping. Anche in questa occasione, è stata riscontrata la violazione del principio di liceità del trattamento, oltre alla mancanza di un consenso specifico degli interessati.

Come viene affrontato il web scraping a livello sovranazionale?

Nello scorso mese di agosto, anche le Autorità Privacy di paesi come il Regno Unito, l’Australia, il Canada, la Norvegia e la Svizzera sono intervenute in materia, rilasciando una dichiarazione congiunta in cui hanno confermato le preoccupazioni legate all’utilizzo dei dati personali raccolti con questa tecnica. Essi, infatti, potrebbero essere sottoposti ad attacchi informatici mirati o al furto dell’identità; a tecniche di marketing diretto o spam; per scopi politici da parte di governi stranieri; per finalità di monitoraggio, profilazione e sorveglianza. Nel documento sono sottolineate anche alcune aspettative che le Autorità ripongono nei confronti delle piattaforme social, soprattutto sulla protezione, da parte di queste ultime, dei dati personali così raccolti.

Cenni sulla regolamentazione del web scraping nel Regolamento europeo sull’intelligenza artificiale

Per quanto concerne, invece, la regolamentazione dello scraping a livello europeo, nella versione emendata della proposta di Regolamento sull’intelligenza artificiale (“AI Act”), risalente allo scorso mese di giugno e ora nella fase finale di approvazione, è prevista l’introduzione, all’art. 5, dei sistemi di intelligenza artificiale che compiono pratiche di scraping non mirato di immagini facciali estratte da internet, con la finalità di creare o ampliare database di riconoscimento facciale, nei sistemi a rischio inaccettabile, di cui deve essere vietata l’immissione sul mercato, la messa in servizio o l’utilizzo.

Quale il futuro per lo scraping?

Emerge quindi una forte e crescente preoccupazione, sia a livello nazionale che internazionale, sull’utilizzo di questa tecnica, che se da un lato risulta fondamentale per permettere agli algoritmi un addestramento pieno e completo, dall’altro implica pesanti conseguenze sulla tutela dei dati personali degli utenti interessati.

Avv. Lorenzo Baudino Bessone e Dott. Lapo Lucani

Newsletter

Iscriviti per ricevere i nostri aggiornamenti

* campi obbligatori