I dati sintetici sono così definiti in quanto dati creati artificialmente, risultanti da un processo di sintetizzazione effettuato tramite algoritmi di machine learning di tipo generativo. In sostanza, l’algoritmo di intelligenza artificiale (“IA”), partendo da un set di dati reali fornito dall’utente, di cui riproduce caratteristiche e struttura, crea nuove informazioni fittizie, appunto sintetiche, non riconducibili al data set originario (rendendo, ad esempio, impossibile identificare le persone fisiche a monte delle informazioni), che abbiano però le stesse caratteristiche statistiche, risultando altamente realistici e granulari.
Poiché gli algoritmi di machine e deep learning necessitano, per le attività di testing e di training, di una grande quantità di dati di qualità (data quality), i dati sintetici rappresentano una valida soluzione alla richiesta massiva di dati, abbattendo le attuali criticità legate (paradossalmente) alla scarsità dei dati di qualità.
Use cases
In virtù delle caratteristiche appena rappresentate, i dati sintetici si prestano ad essere utilizzati in moltissimi settori in cui l’utilizzo dei sistemi di IA costituisce un’opportunità di crescita e di miglioramento delle performance: si pensi al mondo della Fintech – in cui i dati sintetici sono utilizzati per l’allenamento di algoritmi di tipo “predittivo” sull’andamento dei mercati o per la prevenzione di transazioni fraudolente -, al già noto settore dell’Healthcare, ma anche all’ambito assicurativo, del marketing, dell’automotive e, addirittura, dell’agricoltura.
Inoltre, esistono diverse tipologie di dati sintetici: dai media data che vengono utilizzati dagli algoritmi di image processing per generare immagini sintetiche, tra cui i celebri deepfake, ai dati di produzione, tipici delle attività di manutenzione predittiva e controllo di qualità nel contesto della manifattura.
Quali i vantaggi del loro utilizzo?
Com’è facilmente intuibile, i dati sintetici rappresentano un’opportunità di non poco conto per lo sviluppo di modelli di IA sempre più performanti. Anzitutto, certamente vantaggiosi sono i tempi di analisi e di ricerca che, attraverso l’uso dei dati sintetici, diventano più rapidi e meno onerosi rispetto ai tempi impiegati per l’accesso a grandi volumi di dati reali, che invece richiedono particolare accortezza visto l’impatto che eventuali mancanze ed errori possono avere sulle decisioni strategiche di business. Per contro, i risultati delle attività di testing realizzate attraverso i dati sintetici, sono di gran lunga più precisi e attendibili.
Un altro vantaggio è legato all’opportunità di superare le difficoltà legate al processo di anonimizzazione dei dati personali, ancorato ai rischi sottesi al rapidissimo progresso tecnologico, circa la certezza della assoluta irreversibilità dei dati (e conseguente non identificabilità delle persone fisiche cui i dati sono riferiti) e alla riduzione della qualità del dato anonimizzato.
Infine, l’attività condotta attraverso lo sfruttamento di dati sintetici, consente di includere e rappresentare anche i c.d. outlier - ossia quei casi che nella realtà si verificano con minore frequenza e che compongono solo una minima parte del data set reale complessivo: si pensi, ad esempio, alle ipotesi in cui si intenda fare ricerca per la diagnosi e la cura di malattie genetiche rare, che coinvolgono un numero limitato di persone. L’utilizzo dei soli dati reali (in quanto fortemente limitati nella casistica reale e dal punto di vista statistico) limiterebbe inevitabilmente le capacità di sviluppare sistemi di AI performanti in grado di velocizzare e migliorare il processo di ricerca e di sviluppo di cure innovative.
Da ultimo, in un’ottica di condivisione, l’impiego dei dati sintetici potrebbe contribuire notevolmente alla realizzazione degli obiettivi promossi dal Data Governance Act, nell’ambito della strategia europea dei dati, che intende promuovere spazi europei comuni di dati in settori strategici come quello energetico, ambientale, sanitario e finanziario.
Quali i rischi per la privacy?
Ma siamo sicuri che, almeno al momento, i dati sintetici non abbiano alcun impatto privacy significativo?
I dati sintetici sono dati generati ex novo da sistemi di IA: sono anonimi in quanto creati artificialmente da fonti di dati reali rispetto ai quali non vi è alcuna relazione one-to-one. Tuttavia, proprio perché dati originati da data set reali, è necessario rilevare le criticità legate al processo di generazione del dato sintetico:
- I dati personali utilizzati come data set reale per la generazione dei dati sintetici potrebbero essere raccolti in violazione della normativa vigente in materia di data protection (mancata sottoposizione di un’informativa privacy adeguata che illustri il trattamento legato alla generazione di dati sintetici e delle rispettive finalità, individuazione della base giuridica adeguata);
- L’algoritmo di sintetizzazione potrebbe essere viziato da carenze nella rielaborazione del data set originario, tali da consentire l’identificazione a ritroso degli interessati. Al fine di scongiurare tale pericolo, l’European Data Protection Supervisor (“EDPS”), raccomanda di eseguire un “privacy assurance assessment” per valutare l’ampiezza del rischio di re-identificazione e rivelazione di dati degli interessati.
Nondimeno, altri pericoli sono legati ai potenziali usi distorsivi del dato sintetico che si rivelerebbero estremamente dannosi per l’utente, si pensi ai casi di furto d’identità o alla tecnica del “deep fake”, e alla potenziale discriminazione che potrebbe derivare dall’uso di dati sintetici che non siano adeguatamente rappresentativi dei fenomeni cui si rivolgono.
Peraltro, alcuni dubbi sorgono anche nel campo della proprietà intellettuale. Dal punto di vista teorico, l’addestramento delle IA generative con i dati sintetici permette di ottenere risultati svincolati dai diritti di copyright, tuttavia, dal punto di vista pratico i rischi che si concretizzano non sono trascurabili.
È possibile che in fase di addestramento dell’IA siano illecitamente utilizzate fonti protette dal diritto d’autore, da NDS o altri termini di utilizzo, il cui sfruttamento illecito risulterebbe altresì difficile da provare in sede giudiziale proprio per la possibilità di realizzare opere svincolate da quella originale.
Considerazioni
L’utilizzo dei dati sintetici è in costante crescita: si stima che nel 2024 il 60% dei dati utilizzati per sviluppare algoritmi di intelligenza artificiale saranno di tipo sintetico (a fronte del 2% del 2021) e che il mercato loro arriverà, entro il 2027, ad un valore complessivo di circa 1,15 miliardi di dollari. Tuttavia, ad oggi non esiste una definizione tecnico-giuridica del dato sintetico che consentirebbe anche di superare le notevoli lacune emerse in seno alle autorità europee per la protezione dei dati. Nonostante sia lampante la rilevanza strategica rivestita dai dati sintetici, occorre sempre approcciare alla regolamentazione dei sistemi di IA con occhio critico, tenendo ben presente i rischi collaterali ad essi correlati: è necessario definire i principi e le modalità possibili attraverso cui poter alimentare gli algoritmi di IA con i dati reali (e dunque anche personali degli interessati coinvolti nel trattamento).
In quest’ottica, il Regolamento europeo sull’Intelligenza Artificiale (“AI Act”), rivestirà un ruolo centrale: l’auspicio è che, nel disciplinare le possibili esplicazioni dei diversi sistemi di intelligenza artificiale, tenga conto anche della strategica e promettente categoria dei dati sintetici.
Avv. Simona Lanna e Dott.ssa Ilaria Carratù