Studio Previti | Come difendersi dal web scraping: le linee guida del Garante Italiano per la Protezione dei Dati Personali

Il Garante Privacy ha pubblicato una nota informativa riguardo le possibili misure di contrasto che i gestori di siti internet e di piattaforme online, operanti in Italia quali titolari del trattamento dei dati personali, potrebbero implementare al fine di prevenire la raccolta di dati da parte di terzi per finalità di addestramento dei modelli di intelligenza artificiale (c.d. web scraping).

Il web scraping è una tecnica informatica che permette la raccolta massiva e indiscriminata dei dati personali presenti nel web. Leinformazioni e i dati possono essere raccolti in maniera sistematica attraverso programmi (web robot o, più semplicemente, bot) di terzi che operano in maniera automatizzata simulando la navigazione umana, a condizione che le risorse (e.g. siti web, contenuti, etc.) visitate da questi ultimi risultino liberamente accessibili al pubblico online e non sottoposte a controlli di accesso. I dati raccolti vengono poi raggruppati in database e utilizzati per l’allenamento di sistemi di Intelligenza Artificiale di tipo generativo (IAG) in virtù della a costante necessità, di tali sistemi, di fagocitare grandi quantità di informazioni per il loro training.

L'Autorità Garante non esprime giudizi sulla legittimità e/o la liceità delle attività di web scaping quanto, piuttosto, propone suggerimenti per quei soggetti, pubblici e privati, che gestiscono siti web e piattaforme online operanti in Italia quali titolari del trattamento di dati personali resi disponibili online, in merito alle possibili cautele che dovrebbero essere adottate per mitigare gli effetti delle raccolte effettuate tramite bot di terze parti, secondo la tecnica del web scraping, finalizzate all’addestramento di sistemi di Intelligenza Artificiale Generativa (IAG).

Nel documento informativo il Garante suggerisce, quali possibili alternative valide a sottrarre i dati pubblicati sui propri portali dal web scraping, le seguenti soluzioni:

creazione di aree riservate per l’accesso ai dati che si intendono proteggere, a cui si può accedere solo previa registrazione, sottraendo tali informazioni dalla pubblica disponibilità;
inserimento di clausole ad hoc nei Termini di Servizio (ToS) che vietano espressamente l’utilizzo di tecniche di web scraping. Tale cautela, relativamente efficace dal punto di vista della data protection, è ampiamente utilizzata quale strumento per la tutela della proprietà intellettuale per inadempimento contrattuale;
monitoraggio del traffico verso le pagine web per individuare eventuali flussi anomali di dati in entrata e in uscita;
interventi tecnici specifici sui bot tramite i quali viene effettuata l’attività di web scraping, - seppur risulti impossibile impedire la loro operatività in termini assoluti. Tra le misure tecniche indicate dal Garante vi sono: l’inserimento di verifiche CAPTCHA, le quali impongono un’azione eseguibile solo dall’uomo; la modifica periodica del markup HTML; l’incorporazione dei dati all’interno di elementi multimediali (come le immagini), così da rendere l’estrazione per i bot estremamente complessa; il monitoraggio dei file di log (i file di log sono generati da software e contengono informazioni sulle operazioni di un server o un sistema); l’intervento sul file robot.txt (è un protocollo di esclusione robot che indica le regole per l’accesso ai dati contenuti nei siri web). L’adozione delle summenzionate misure non sono obbligatorie per i titolari del trattamento gestori di siti internet e di piattaforme online operanti in Italia, ma la loro adozione potrebbe risultare necessaria sulla base di un’autonoma valutazione del titolare del trattamento, in attuazione del principio di responsabilizzazione accountability, utile così a contenere gli effetti del web scraping e la possibile utilizzazione non autorizzata, da parte di terze parti, dei dati personali pubblicati online.

I sistemi di IAG possono produrre benefici per la collettività, ma il loro funzionamento richiede una quantità massiva di dati, anche personali, con conseguenze notevoli su tutti i soggetti interessati dal trattamento. In ottemperanza al principio di accountability, ciascun titolare del trattamento è tenuto a valutare la compatibilità dell’attività di web scraping rispetto alle finalità e le basi giuridiche sotteso al trattamento e, secondo le condizioni del caso di specie, verificare la necessità di implementare le misure suggerite dal Garante.

Avv. Simona Lanna e Dott. Lorenzo MaioneF