Per quali finalità i dati personali possono essere trattati nell’ambito dell’addestramento di un algoritmo di un sistema di intelligenza artificiale? Come noto, ogni operazione di trattamento dei dati personali deve rispettare i principi previsti dall’art. 5 del Regolamento 2016/679 (“GDPR”), tra cui il principio di liceità (il trattamento deve essere fondato su un’appropriata base giuridica ai sensi degli artt. 6 e 9) e quello di trasparenza, in base al quale gli interessati devono essere informati sulle peculiarità del trattamento cui sono sottoposti. È dunque fondamentale comprendere se il training dell’algoritmo di un sistema di IA debba essere considerato come un trattamento autonomo di dati personali, oppure se esso vada inteso come un mero strumento di un più ampio trattamento, che non persegue solo la specifica finalità dell’addestramento, ma ne ricomprende invece anche di ulteriori. In merito si sono espresse le Autorità per la Protezione dei Dati Personali di vari paesi europei, fornendo delle risposte discordanti.
Le opinioni delle Autorità britanniche, francesi e tedesche
L’Autorità britannica, l’”Information Commissioner Office” (“ICO”), nella sua “Guidance on AI and data protection” ha affermato che se avviene una raccolta di dati personali direttamente dagli interessati, questi devono ricevere un’adeguata informativa prima che tali dati siano utilizzati per addestrare un sistema di IA. L’ICO ha quindi ritenuto che ogni fase preliminare all’utilizzo di questa tecnologia – oltre al training, anche lo sviluppo e l’implementazione – costituisca un autonomo trattamento di dati personali, con la conseguenza che per ogni fase debba esserci un’appropriata finalità e base giuridica.
L’Autorità francese, la “Commission Nationale de l’Informatique et des Libertés” (“CNIL”), ha invece analizzato la circostanza in cui le operazioni di trattamento dei dati effettuate nella fase di sviluppo dell’IA, comprendendo quella di addestramento, perseguano esclusivamente lo stesso scopo delle operazioni tipiche della fase di implementazione del sistema (ossia le finalità a cui il sistema di IA è concretamente destinato). In questa situazione, le operazioni vengono ricomprese nel medesimo regime giuridico. Inoltre, la CNIL, richiamando delle linee guida del WP29 del 2013 in materia di limitazione delle finalità del trattamento, ha anche preso in considerazione l’eventualità in cui il titolare del trattamento voglia riutilizzare i dati raccolti per una finalità iniziale, al fine di costruire una banca dati con cui addestrare il sistema di IA. La CNIL ha quindi precisato l’importanza di effettuare il cd. “test di compatibilità” prima di procedere al riuso dei dati in questa fase. Esso è infatti da effettuarsi se la finalità di training dell’algoritmo non era stata prevista o comunicata agli interessati al momento della raccolta dei dati. Il test deve essere fatto anche nel caso in cui i dati, trattati dallo stesso titolare del trattamento, siano riutilizzati per uno scopo distinto da quello originario. Di conseguenza, se la finalità ulteriore del trattamento risultasse incompatibile con quella iniziale, il titolare dovrebbe fornire all’interessato un’informativa in merito alla nuova e diversa finalità, prima di poter riutilizzare i dati.
Inoltre, anche in Germania, lo scorso 6 maggio, la “Datenschutzkonferenz” (“DSK”, Conferenza sulla protezione dei dati) si è occupata di questo tema, rilasciando la prima versione delle linee guida che si occupano del rapporto tra intelligenza artificiale e protezione dei dati. Il documento riprende quanto esposto dall’ICO, affermando che per ogni fase di trattamento che coinvolge dati personali, con l’ausilio di sistemi di IA, è richiesta una specifica base giuridica. La DSK distingue poi a seconda che il trattamento sia effettuato da autorità pubbliche: se i dati dei cittadini sono trattati tramite sistemi di IA, ciò richiede una base giuridica appropriata e un’adeguata informativa in merito ai possibili rischi per i diritti e le libertà derivanti dal trattamento.
Le opinioni di EDPB ed EDPS
Si è occupato del tema anche l’”European Data Protection Board” (“EDPB”), specificamente nel report del 23 maggio concernente la task force sul funzionamento di ChatGPT. L’EDPB ritiene che, per valutare la liceità, si debbano distinguere le varie fasi di trattamento dei sistemi di IA. Nello specifico caso del software di intelligenza artificiale generativa, queste sono state suddivise in: 1) raccolta dei dati di addestramento; 2) pretrattamento dei dati (incluso il filtraggio); 3) addestramento; 4) inserimento dei prompts e risultato degli output; 5) addestramento di ChatGPT con i prompts.
Infine, si è espresso in merito al rapporto tra la protezione dei dati e l’utilizzo dell’IA generativa anche il Garante europeo per la protezione dei dati (“EDPS”, European Data Protection Supervisor), che ha rilasciato il 3 giugno delle apposite linee guida. Dopo aver richiamato i principi generali del GDPR, il Garante ha ricordato come, anche nel caso dell’IA generativa, il consenso possa essere considerato una base giuridica adeguata, ovviamente a patto che rispetti quanto previsto dalle già vigenti legislazioni in materia di protezione dei dati. Anche il legittimo interesse può essere utilizzato come base giuridica per il trattamento da parte dei fornitori di servizi di modelli di IA generativa, in particolare per quanto riguarda la raccolta dei dati utilizzati per sviluppare il sistema, compresi i processi di addestramento e convalida.
Conclusioni
Emerge dunque una visione non ancora ben definita e chiara riguardo al rapporto tra il trattamento dei dati personali e l’addestramento degli algoritmi dei sistemi di IA. Molto probabilmente la definitiva entrata in vigore del Regolamento europeo sull’intelligenza artificiale (“AI Act”) potrà servire per delineare una strategia comune su come affrontare le future sfide in questo settore. Sicuramente, come sottolinea il Considerando 67 del nuovo testo legislativo, un ruolo chiave sarà giocato dalla trasparenza, che deve essere garantita con riguardo alla finalità originaria della raccolta dei dati utilizzati per l’addestramento.
Avv. Lorenzo Baudino Bessone e Dott. Lapo Lucani