“Se torturiamo i dati abbastanza a lungo, essi confesseranno (e ci sveleranno i messaggi segreti inviatici da Dio)” Ronald Coase (citazione liberamente riadattata)
La ricerca di connessioni e significati “nascosti” all’interno dei dati, se non supportata da rigorosi criteri metodologici caratterizzati da scientificità, può indurre a rilevare correlazioni che sembrano “significative”, ma che in realtà sono determinate semplicemente dal caso (per questo vengono anche dette correlazioni spurie).
Tale fenomeno si può manifestare con maggiore facilità proprio al crescere della dimensione dei datasets che vengono presi in considerazione (come avviene, appunto, nel caso dei Big Data Analytics).
Vediamo perchè.
La Scienza non gioca con i numeri
In questo senso, può essere istruttivo prendere in considerazione pratiche pseudo-scientifiche in uso nel passato, quali la numerologia, sopravvissuta sino ai nostri giorni, e ritornata in auge in tempi recenti anche grazie a successi editoriali e di intrattenimento (basti pensare al famoso libro di Dan Brown, “The Da Vinci Code”).
Premettiamo innanzitutto (a scanso di fraintendimenti) che i risultati ottenuti tramite tali pratiche non hanno alcun valore scientifico, ed è bene che rimangano confinati nell’ambito della fiction.
Tuttavia, costituiscono esempi istruttivi proprio perchè ci fanno riflettere sui possibili vizi metodologici cui si rischia di andare incontro quando si gestiscono attività di Big Data Analytics e Data Mining, in modo particolare quando si deve costruire un’opportuna narrazione basata sui dati (data storytelling).
Alessandro Parisi è un professionista IT da oltre 30 anni, con una significativa esperienza come Computer Scientist, è specialista nei settori della Cybersecurity, Artificial Intelligence e Blockchain.
Ha maturato una vasta esperienza professionale in contesti organizzativi e decisionali caratterizzati da elevata complessità, supportando le aziende nella adozione delle tecnologie innovative come strumenti strategici per proteggere e valorizzare le risorse aziendali.
E' autore di pubblicazioni specialistiche, tra cui "Hands-on Artificial Intelligence for Cybersecurity", adottato come testo di riferimento da diverse Università internazionali, e del testo "Securing Blockchain Networks like Ethereum and Hyperledger Fabric".
Fin dal 2006 si occupa di Privacy Compliance, è autore del testo "Sicurezza Informatica e Tutela della Privacy", e da febbraio 2022 è Membro del Board dei Data Protection Experts del Council of Europe (CoE).
Per Consulenza Online: Richiedi preventivo
Big Data Analytics, Il rischio di deriva “numerologica”
Ronald Coase (citazione liberamente riadattata)
La ricerca di connessioni e significati “nascosti” all’interno dei dati, se non supportata da rigorosi criteri metodologici caratterizzati da scientificità, può indurre a rilevare correlazioni che sembrano “significative”, ma che in realtà sono determinate semplicemente dal caso (per questo vengono anche dette correlazioni spurie).
Tale fenomeno si può manifestare con maggiore facilità proprio al crescere della dimensione dei datasets che vengono presi in considerazione (come avviene, appunto, nel caso dei Big Data Analytics).
Vediamo perchè.
La Scienza non gioca con i numeri
In questo senso, può essere istruttivo prendere in considerazione pratiche pseudo-scientifiche in uso nel passato, quali la numerologia, sopravvissuta sino ai nostri giorni, e ritornata in auge in tempi recenti anche grazie a successi editoriali e di intrattenimento (basti pensare al famoso libro di Dan Brown, “The Da Vinci Code”).
Premettiamo innanzitutto (a scanso di fraintendimenti) che i risultati ottenuti tramite tali pratiche non hanno alcun valore scientifico, ed è bene che rimangano confinati nell’ambito della fiction.
Tuttavia, costituiscono esempi istruttivi proprio perchè ci fanno riflettere sui possibili vizi metodologici cui si rischia di andare incontro quando si gestiscono attività di Big Data Analytics e Data Mining, in modo particolare quando si deve costruire un’opportuna narrazione basata sui dati (data storytelling).
CONTINUA LA LETTURA
© Innovation-Exploited.com - All rights reserved - Riproduzione Riservata
Alessandro Parisi
Alessandro Parisi è un professionista IT da oltre 30 anni, con una significativa esperienza come Computer Scientist, è specialista nei settori della Cybersecurity, Artificial Intelligence e Blockchain.
Ha maturato una vasta esperienza professionale in contesti organizzativi e decisionali caratterizzati da elevata complessità, supportando le aziende nella adozione delle tecnologie innovative come strumenti strategici per proteggere e valorizzare le risorse aziendali.
E' autore di pubblicazioni specialistiche, tra cui "Hands-on Artificial Intelligence for Cybersecurity", adottato come testo di riferimento da diverse Università internazionali, e del testo "Securing Blockchain Networks like Ethereum and Hyperledger Fabric".
Fin dal 2006 si occupa di Privacy Compliance, è autore del testo "Sicurezza Informatica e Tutela della Privacy", e da febbraio 2022 è Membro del Board dei Data Protection Experts del Council of Europe (CoE).
Per Consulenza Online: Richiedi preventivo
22 Marzo 2018
Commenti & Opinioni
big data, correlazioni spurie, data driven