Ri-privatizziamo le nostre vite: quando l'ultima cosa pubblica sono i nostri dati
Prima di tutto, un cappello introduttivo: perché questo tema? Perché poco tempo fa è uscita la notizia che un prete americano (per altro un pezzo grosso di non ho capito quale strana setta religiosa a stelle e strisce) è stato messo alla pubblica gogna poiché assiduo utente di Grindr e frequentatore di locali gay. Dopo aver riso MOLTO (decisamente più di quanto sia sensato e, forse, legittimo, devo ammettere) è immediatamente risalito il mio proverbiale male di vivere: ma quanto è facile "de-anonimizzare" i dati personali? Perché sì, il nostro ecclesiasta preferito è stato identificato tramite i dati collezionati da Grindr, liberamente divulgati
1 dopo un ATTENTISSIMO processo di anonimizzazione. Complimentissimi, avete fatto un gran lavoro.
Ma come è possibile? Alla fine non dovrebbe bastare eliminare determinate informazioni particolarmente specifiche (nome, indirizzo, codice fiscale, …) per rendere impossibile capire determinate informazioni a chi appartengono?
In effetti, ad una prima occhiata questo ragionamento sembra reggere. Magari bisogna allungare lievemente la lista delle informazioni da rimuovere (ad esempio, rimuoverei i vari identificativi del telefono che, spoiler, è probabilmente
2 la principale informazione con cui si è risalito al nostro amichevole predicatore di quartiere) ma in linea di principio il metodo pare solido.
Ma con giusto un pizzico di meta-pensiero, si potrà facilmente capire che se sto scrivendo ste due cagate allora la risposta è “no, non basta affatto”. E infatti non basta. What a twist.
Ma (ri)partiamo dall’inizio. Per “de-anonimizzazione” dei dati si intende il processo di riattribuzione degli stessi alla persona a cui appartengono. O meglio, della persona da cui sono stati generati. Solitamente, questo avviene “mischiando” diverse fonti di dati (dati ottenuti individualmente e/o fonti pubblicamente disponibili), incrociando quindi le informazioni sulla stessa persona ma raccolte in contesti e conservate in basi di dati (da ora in poi database, perché c’è un limite al cringe) diverse. Le possibilità sono praticamente infinite ed è quindi impossibile trattarle tutte qui, ma mi piacerebbe vedere tre casi particolari, in ordine di… figaggine? Terrore indotto? Diciamo interesse e via. Tutti e tre sono tratti da articoli scientifici pubblicati, e lascio i link in coda ai titoli per chi volesse approfondire
3.
1.
“Unique in the shopping mall”: re-identificazione tramite i movimenti della carta di credito[1]4
Questo è un articolo relativamente vecchio: 2015. Ai tempi, “solo” il 60% del totale degli aquisti negli USA avveniva tramite pagamenti elettronici (da una rapida ricerca, nel 2020 sembra che si sia arrivati al 78). Avendo a disposizione i dati relativi agli acquisti con carta di credito, anonimizzati rimuovendo gli identificativi più ovvi come nome, cognome e numero di conto, quanto è possibile risalire alla persona che ha effettivamente eseguito determinate transazioni? Scopriamolo con un rapido esempio, tratto dall’articolo. Ipotizziamo di voler rintracciare Scott sapendo due suoi acquisti: Scott è andata in panetteria il 23 Settembre e al ristorante il 24. Un “punto” del nostro set di dati corrisponde ad una singola transazione, identificata con importo, luogo dell’acquisto, un identificativo temporale e un identificativo personale fittizio (del tipo 7abc1a23); controllando scopriamo che esiste una sola persona che è stata in quei due negozi in quelle rispettive date,e in questo modo abbiamo identificato Scott e ora abbiamo accesso allo storico di tutte le sue transazioni. Ma in generale, quanto è efficace questo metodo? Beh, l’articolo mostra che conoscendo solo due transazioni, il rischio medio di identificazione è intorno al 50%, ma se si ha accesso a quattro questa percentuale schizza al 90%. Il sogno di ogni stalker, per fare un facile esempio di rischio.
Una piccola nota di colore: andando più a fondo, si può notare che con questo sistema è più facile identificare persone con un alto tenore di vita (93%), che quelle appartenenti alla classe media (91%) che a loro volta sono più facili da identificare di quelle appartenenti alle fasce più povere della società (88%), e in generale le donne sono più facili da identificare degli uomini (93 contro 89%).
2.
“Unique in the crowd”: re-identificazione tramite geolocalizzazione[2]
Articolo ancora più vecchio: 2013. Stupirà poco, ma il problema nasce dall’avvento degli smartphone e di tutti i metodi di raccolta dati collegati. Infatti, una volta i dati sulla mobilità telefonica erano disponibili solo alle aziende fornitrici del servizio, che avevano quindi il controllo sulle celle; ora, gli stessi dati (anzi, dati ancora più dettagliati) sono liberamente disponibili. Grazie GAFAM
5.
Questi dati possono provenire dai processi più disparati (pagamenti, accessi WiFi, applicazioni proprietarie, …) e, grazie alla connessione e al tipo di dispositivi su cui prendono vita, portano con sé degli indicatori relativi alla posizione geografica. Il processo di anonimizzazione è affine a quello visto in precedenza: si rimuovono nomi, cognomi, indirizzi di residenza, numeri telefonici e così discorrendo. Ma, per fare un esempio molto rapido, non è difficile risalire all’indirizzo di residenza di una persona avendo la cronologia dei suoi spostamenti: basta controllare le posizioni geografiche che ricorrono più frequentemente, eliminare quelle che vengono trovate in “orario lavorativo” e, tendenzialmente, avremo ritrovato l’indirizzo di residenza.
Questo articolo è un po’ più denso del precedente, ma sintetizzando i concetti possiamo dire che mediamente è possibile re-identificare una persone con il 95% di sicurezza avendo accesso a sole 4 coordinate spazio-temporali (ovvero comprendenti luogo e ora) più o meno equamente distribuite durante la giornata, e che il numero massimo di punti necessari per avere la certezza di re-identificare una persona è di 11. Numeri decisamente irrisori, se si pensa a quante informazioni i nostri telefoni raccolgono diligentemente durante la giornata, il che significa che anche un set di dati “sparso”, ovvero che fornisce solo una minima parte delle informazioni raccolte, è più che sufficiente per risalire all’identità di una persona.
3.
Stimare la probabilità di successo nella re-identificazione usando set di dati incompleti[3]
Questo articolo è una figata pazzesca. E una tragedia al tempo stesso.
A differenza dei due precedenti, non si concentra su fonti di dati dubbie o legate al funzionamento della nostra società ma a fonti la cui utilità e necessità di raccolta è fuori discussione, ovvero i dati sanitari e quelli demografici. Questi sono solitamente diffusi abbastanza liberamente per permettere ad enti di ricerca e associazioni di poterli utilizzare, e il processo di anonimizzazione è leggermente più articolato: oltre alla procedura di rimozione di identificativi vista nei precedenti articoli, i dati non vengono mai diffusi nella loro interezza tutti nel medesimo set, ovvero vengono diffusi solo dei sotto-campioni delle informazioni totali disponibili.
Questa è una buona idea, ma evidentemente insufficiente: infatti, il metodo sviluppato permette di re-identificare quasi l’80% delle persone con un grado di accuratezza a sua volta pari all’80% utilizzando come informazioni solamente lo ZIP code (più o meno equivalente al nostro CAP), la data di nascita, il genere e il numero di figli. La percentuale sale 99.98% se si usano invece 15 attributi demografici. Questa potenza è abbastanza inquietante se pensiamo che la compagnia di “data broker”
6 Experian ha venduto un dataset già re-identificato contenente 248 attributi per persona.
Se avessi voglia di inquietarti maggiormente, i ricercatori hanno pubblicato una interfaccia web che permette di stimare la propria identificabilità. Una prima stima avviene utilizzando come input il paese di provenienza
7 (UK o USA), il codice postale (più o meno equivalente al nostro CAP), la data di nascita e il genere. In questo scenario, tralasciando la questione del CAP, sono risultato identificabile col 75% di sicurezza, quando la media è del 79%. Male, ma non malissimo.
Qui arrivano, però, le dolenti note: nella seconda stima, utilizzando come attributi il genere, la data di nascita (possibilmente divisa anche in solo anno, mese e/o giorno), lo stato coniugale, il codice postale, il numero di autoveicoli posseduti, lo stato lavorativo e il tipo di proprietà immobiliare (casa di proprietà, co-proprietà, affitto, ecc) risulto identificabile… al 100%. Utilizzando solo 7 identificativi, a fronte di un potenziale noto di almeno 248, è di fatto impossibile non rintracciarmi.
Lascio
qui il link per chi volesse allegramente fare il test (sempre al netto dell’imprecisione dovuta al non essere effettivamente tarato sulla demografia italiana).
Dopo questa scorpacciata di ottimismo, una “piccola” nota finale: come abbiamo visto, il problema è gigantesco e già profondamente radicato nella nostra società. Il lato tecnico che aggrava il tutto è che, aldilà della scarsa attenzione posta attualmente sul tema dalle grandi istituzioni globali, è oggettivamente difficile rendere anonimi dei dati quando si ha accesso a moli di informazioni sterminate come quelle attualmente disponibili e agli strumenti matematici e informatici dei nostri giorni. Una profonda riflessione sul tema è fortemente necessaria, ma difficilmente una soluzione soddisfacente può essere trovata rapidamente. Al tempo zero, quindi, dobbiamo pretendere che venga resa impossibile la divulgazione di questa mole di dati a chi non abbia effettivamente buone ragioni per averli
8 e, sicuramente, non per meri scopi di lucro. Il data-broking rischia di diventare una enorme piaga della nostra società che mette a rischio la privacy e la sicurezza di tutti e tutte noi. E, come ormai noto, non possiamo lasciare tutto questo in mano alle solite grandi aziende. Basti pensare che, quando lasciate libere di agire, queste vengono fuori con mosse geniali quale, ad esempio, l’iniziativa di DeepMind (laboratorio di ricerca privato di proprietà, guarda caso, di Google) che ha dato libero accesso ad un database on “un milione di scan di occhi anonimizzate”. Alla luce di quanto scritto finora, è palese il rischio che mosse come questa comportano, a maggior ragione se vengono coinvolti dati biometrici intrinsecamente unici come, appunto, immagini degli occhi.