twitterlinkedinmail


In tempi in cui gli attentati terroristici sono purtroppo all’ordine del giorno, l’argomento Privacy e tutela della Riservatezza è da molti considerato sospetto di per se stesso.

Ma davvero la rinuncia alla Privacy è un male necessario per garantire la sicurezza dei cittadini, oppure, alla luce dell’impiego dei Big Data in maniera sempre più pervasiva, questo non rischia di trasformarsi in un boomerang?

Quel falso trade-off tra sicurezza e privacy

È diventato oramai un luogo comune condiviso da molti l’idea che per garantire la sicurezza dei cittadini, questi debbano rinunciare alle loro “pretese” in termini di riservatezza.

In realtà, come vedremo tra poco, all’aumentare dell’informazione disponibile non corrisponde necessariamente un’analogo incremento del “segnale” (vale a dire delle informazioni realmente rilevanti) ma del “rumore” (ovvero delle informazioni inutili, fuorvianti o semplicemente casuali, come le spurious correlations, correlazioni spurie).

La ricerca del segnale in questo caso assomiglia sempre più a quella di un ago in un pagliaio…con l’aggravante che al crescere delle informazioni l’ago rimane sempre lo stesso, mentre il pagliaio cresce a dismisura!

Vediamo di chiarire il concetto con un esempio numerico.

Cercare un ago in un pagliaio che cresce a dismisura

Avendo a disposizione i dati relativi alle prenotazione degli hotel (dati che includono ovviamente nome, cognome, indirizzo ecc.) effettuate da un gran numero di turisti (nell’ordine di 1 miliardo), vogliamo scoprire se tra questi non ci siano possibili terroristi, come ad es. due soggetti di nazionalità e residenza diversa, che hanno deciso di incontrarsi in uno stesso hotel, ubicato in una qualsiasi parte del mondo, in due giorni diversi (cosa che reputiamo sospetta, e che pertanto interpretiamo come indizio della pianificazione di un possibile attentato terroristico).

Dunque, riepiloghiamo i dati del nostro esempio (1^) e cerchiamo di effettuare alcuni semplici calcoli:

  1. il numero delle prenotazioni di hotel riguarda 1 miliardo (cioè 109) di soggetti di tutte le nazionalità;
  2. ogni turista va in un hotel 1 giorno su 100;
  3. immaginiamo di concentrare le nostre indagini su 100.000 hotel, e che ogni hotel possa ospitare 100 persone ciascuno;
  4. la nostra analisi si sviluppa su di un arco temporale di 1000 giorni.

Sulla scorta di tali ipotesi, cominciamo adesso col valutare la probabilità che due persone si incontrino nello stesso hotel in due giorni diversi.

Innanzitutto consideriamo il caso del singolo turista che decide di far visita ad uno dei 100.000 (105) hotel in un dato giorno: la probabilità è pari 0.01 (1/100).

Di conseguenza, la probabilità che due persone qualunque decidano di visitare un hotel in un dato giorno è pari a 0.0001 (cioè il prodotto delle singole probabilità: 0.01 x 0.01).

La probabilità che queste due persone decidano in particolare di visitare lo stesso hotel in un determinato giorno è pari a 0.0001 (ovvero 10-4) diviso per il numero degli hotel a disposizione (cioe 100.000, ovvero 105).

Pertanto tale probabilità è pari a:

10-4/105 = 10-9 (ovvero 0.000000001, vale a dire uno su un miliardo).

Allo stesso modo, la probabilità che visitino lo stesso hotel in due determinati giorni (evento che nelle nostre ipotesi costituisce il “campanello d’allarme”) è pari a:

10-9 x 10-9 = 10-18

A questo punto non ci resta che stimare il numero di “incontri sospetti” che fanno scattare il campanello di allarme (cioè due persone che visitino lo stesso hotel in due giorni diversi).

Tale valore è il prodotto tra le combinazioni possibili di coppie di turisti, le combinazioni possibili di coppie di giorni (estratte sui 1000 giorni costituenti il periodo di osservazione), e la probabilità che ogni coppia di turisti visitino lo stesso hotel in due giorni diversi (che già sappiamo essere pari a 10-18):

C(10^9,2) x C(1000,2) x 10-18 ~= 250.000

Vale a dire che dovremmo verificare un numero di coppie di possibili “sospetti” pari a 250.000 che potrebbero risultare assolutamente innocenti, dato che la coincidenza di due persone che si incontrano nello stesso hotel in due giorni diversi è ampiamente giustificata e determinata dal caso (come abbiamo visto applicando le nostre stime probabilistiche).

Oltre che a intromettersi nella vita privata di un numero spropositato di innocui (e innocenti) cittadini, le forze dell’ordine sarebbero comunque chiamate ad uno sforzo investigativo assolutamente insostenibile in termini pratici.

È per queste ragioni che un progetto di sicurezza inizialmente proposto dall’amministrazione Bush nel 2002, dal nome evocativo di “Total Information Awareness” è stato prematuramente “archiviato” e non rifinanziato.

Ma nel 2002 non era ancora esplosa la “mania” dei Big Data Analytics, e da allora in molti sembrano averci rifatto un pensierino…

(1^) L’esempio è ripreso e riadattato dall’originale esposto nel magistrale testo “Mining of Massive Datasets”, Anand Rajaraman, Jure Leskovec, and Jeffrey D. Ullman.