“Se torturiamo i dati abbastanza a lungo, essi confesseranno (e ci sveleranno i messaggi segreti inviatici da Dio)”
Ronald Coase (citazione liberamente riadattata)

La ricerca di connessioni e significati “nascosti” all’interno dei dati, se non supportata da rigorosi criteri metodologici caratterizzati da scientificità, può indurre a rilevare correlazioni che sembrano “significative”, ma che in realtà sono determinate semplicemente dal caso (per questo vengono anche dette correlazioni spurie).

Tale fenomeno si può manifestare con maggiore facilità proprio al crescere della dimensione dei datasets che vengono presi in considerazione (come avviene, appunto, nel caso dei Big Data Analytics).

Vediamo perchè.

La Scienza non gioca con i numeri

In questo senso, può essere istruttivo prendere in considerazione pratiche pseudo-scientifiche in uso nel passato, quali la numerologia, sopravvissuta sino ai nostri giorni, e ritornata in auge in tempi recenti anche grazie a successi editoriali e di intrattenimento (basti pensare al famoso libro di Dan Brown, “The Da Vinci Code”).

Premettiamo innanzitutto (a scanso di fraintendimenti) che i risultati ottenuti tramite tali pratiche non hanno alcun valore scientifico, ed è bene che rimangano confinati nell’ambito della fiction.

Tuttavia, costituiscono esempi istruttivi proprio perchè ci fanno riflettere sui possibili vizi metodologici cui si rischia di andare incontro quando si gestiscono attività di Big Data Analytics e Data Mining, in modo particolare quando si deve costruire un’opportuna narrazione basata sui dati (data storytelling).