
Il 10 aprile 2025 il Comitato europeo per la Protezione dei Dati (European Data Protection Board, in seguito “Comitato” o “EDPB”) ha rilasciato il documento intitolato “AI Privacy Risks & Mitigations Large Language Models”, che propone una metodologia completa di gestione del rischio, volta a identificare, valutare e mitigare i rischi relativi alla protezione dei dati personali derivanti dall’utilizzo di sistemi di IA basati sugli LLM. Oltre a dare una descrizione dettagliata dei sistemi LLMs e illustrarne i rischi e le possibili misure di mitigazione, il rapporto fornisce inoltre tre esempi di use cases sulla corretta applicazione del modello di gestione degli LLMs.
Cosa sono gli LLMs?
Gli LLMs, modelli linguistici di grandi dimensioni, sono sistemi di intelligenza artificiale che vengono addestrati su insiemi di dati molto estesi, che comprendono sia contenuti disponibili pubblicamente che i cd. “dataset proprietari”. Nelle loro diverse applicazioni possono essere utilizzati come chatbot e assistenti virtuali, per la generazione o il riassunto di testi, oltre a essere in grado di elaborare e generare immagini, audio o video; sono impiegati anche nei veicoli a guida autonoma. Alcuni esempi molto noti di questa tecnologia sono i software ChatGPT, Gemini e Claude; si basano su questo sistema anche i servizi di cloud quali Azure, AWS Bedrock e IBM Watson.
I possibili rischi per la privacy
Come evidenziato anche nel rapporto pubblicato dall’EDPB, il rischio privacy legato allo sviluppo e all’uso di LLMs può registrarsi in diverse fasi, già nel momento di progettazione e pre-elaborazione dei dati, nel caso in cui gli algoritmi siano alimentati con dati riferibili a persone fisiche non adeguatamente anonimizzati. Il trattamento dei dati effettuato tramite gli LLMs potrebbero inoltre qualificarsi quali elaborazioni su vasta scala, memorizzando dati sensibili che potrebbero essere esposti nell’output finale. Altro rischio è legato, inoltre, all’utilizzo di set di dati di prova che spesso comprendono scenari reali, esponendo inavvertitamente le informazioni personali degli utenti, nonché dalla distribuzione del modello tra gli utenti, i quali, interagendo in tempo reale con gli LLMs, potrebbero fornire informazioni personali, anche di tipo particolare.
Non meno rilevanti sono i rischi legati al pensionamento del sistema di AI e all’archiviazione delle informazioni, in quanto la mancata cancellazione dei dati personali in fase di dismissione del modello può comportare un rischio ingiustificato di esposizione di dati personali a lungo termine.
Tali livelli rischio variano anche a seconda della tipologia di modello LLMs utilizzato, se di tipo chiuso o open source: nel primo caso, il principale fattore di rischio è legato alla ridotta trasparenza esterna verso gli utenti, i quali si affidano interamente alla garanzie privacy previste dal fornitore, non potendo verificare autonomamente la conformità del sistema di AI alla normativa in materia di protezione dei dati personali. Per i modelli open source, il principale fattore di rischio è invece legato alla sicurezza dei dati rispetto alla potenziale loro esposizione, che risulta particolarmente elevato nel caso di trattamento di dati particolari.
Processo per la valutazione e gestione del rischio
Come anticipato, il report fornisce indicazioni su come gestire correttamente il rischio complessivo legato agli LLMs. Il processo di gestione viene suddiviso in 5 fasi: i) identificazione del rischio; ii) stima e valutazione del rischio mediante analisi della gravità e della probabilità del rischio concreto; iii) valutazione di trattamento del rischio e misure di mitigazione per la riduzione del rischio; iv) valutazione del rischio residuo a seguito dell’implementazione delle misure di mitigazione e v) revisione e monitoraggio continuo del processo di gestione.
Il primo passo per gestire adeguatamente i rischi legati ai sistemi di LLMs è individuare correttamente i livelli di rischio associati. A tal fine, il report fornisce una prima classificazione dei diversi fattori di rischio con relativi esempi di applicabilità.
In particolare, se questi sistemi sono utilizzati in maniera automatizzata per servizi quali l’adempimento o l’esecuzione di un contratto ovvero la determinazione dell’affidabilità creditizia di una persona fisica, l’impatto dell’IA potrebbe risultare particolarmente invasivo per le persone coinvolte, con conseguenze negative per gli utenti, spesso non adeguatamente informati. Parimenti, ciò può avvenire anche in caso di elaborazione di dati sensibili (come quelli relativi a precedenti giudiziari o comportamentali) o in caso di trattamento effettuato su larga scala (come nei casi delle piattaforme di e-commerce o dei social media).
Un’altra situazione analoga è quella in cui sono trattati i dati di persone vulnerabili; in tal caso, la mancanza di garanzie potrebbe portare a violazioni dei loro diritti fondamentali (ad esempio, se gli LLMs sono utilizzati in ambito sanitario o scolastico). Altro fattore di rischio è quello legato all’utilizzo di dati di input e/o di addestramento di bassa qualità, che possono comportare la generazione di bias in grado di incidere negativamente sui risultati finali in termini di precisione e completezza.
Identificati correttamente i rischi, il processo di gestione richiede di effettuare una valutazione preliminare accurata che tenga conto della probabilità, della gravità e dell’impatto potenziale dei rischi, in relazione al caso d’uso specifico e il contesto operativo del sistema LLM oggetto di analisi (fase 2). Il report fornisce linee guida per la valutazione della probabilità e della gravità del rischio, nonché criteri per l’adozione di misure di mitigazione, trasferimento e/o accettazione del rischio (fase 3).
Elemento portante dell’intero processo (fase 5) è garantire un monitoraggio continuo, sia del sistema LLM implementato che dell’intero processo di gestione in modo da poter garantire, su base costante, un trattamento dei dati conforme alle prescrizioni di cui alla normativa privacy vigente.
Un esempio pratico: gli LL.Ms applicati all’istruzione
Il documento presenta, infine, tre use cases di gestione del rischio applicata a casi pratici di utilizzo di LLMs: i) lo sviluppo di un chatbot per l’assistenza alle richieste dei clienti; ii) il monitoraggio e il supporto allo studio in ambiente scolastico; iii) l’utilizzo dell’IA per la pianificazione di viaggi, basata sull’agenda degli utenti.
Per quanto concerne il secondo use case, il tool oggetto di studio prevede l’analisi di una combinazione di dati, tra cui: i voti scolastici, i compiti assegnati, le presenze e i resoconti degli insegnanti, con lo scopo di identificare le aree o le materie in cui gli studenti potrebbero necessitare di un maggior supporto e creare piani di apprendimento personalizzati che possano aiutare gli studenti e consentire loro di esprimere al massimo le proprie potenzialità.
I rischi privacy correlati possono riguardare: la mancata anonimizzazione dei dati di addestramento del sistema, l’illecito trattamento di dati personali (anche riferibili a soggetti minori e/o a categorie particolari), il possibile impatto negativo sui diritti fondamentali degli interessati, una conservazione inadeguata e i rischi legati al trasferimento dei dati personali. Il documento suggerisce alcune raccomandazioni applicabili per una corretta gestione del rischio, tra cui l’utilizzo di differenti tecniche per minimizzare i rischi di inferenza dei dati, l’esclusione dei dati personali sensibili dai dataset di addestramento senza adeguate garanzie, l’ottenimento di un consenso esplicito da parte dei genitori in caso di utilizzo di dati di minori e la comunicazione di informazioni chiare e accessibili riguardanti il trattamento dei dati, il rispetto dei principi di accuratezza e trasparenza per la fase di addestramento e utilizzo dell’IA.
Avv. Simona Lanna e Dott. Lapo Lucani