Machine Learning underspecification, ovvero la rivincita della Teoria sui Big Data

Ha suscitato un discreto scalpore la recente pubblicazione di una ricerca scientifica curata dal team di Google (dal titolo evocativo
“Underspecification Presents Challenges for Credibility in Modern Machine Learning”), in cui vengono denunciate alcune debolezze di fondo dei modelli di Machine Learning e Deep Learning che renderebbero addirittura inaffidabili le previsioni ottenute applicando tali metodologie a settori critici quali quello medicale, con particolare riferimento ai modelli epidemiologici utilizzati per prevedere l’evoluzione di pandemie legate alla diffusione di virus, quali ad esempio il Covid-19.

Per comprendere la portata, per certi versi “epocale”, di tali affermazioni, occorre ripercorrere gli eventi che hanno condotto alla diffusa (e spesso indiscriminata) adozione dei modelli previsionali basati sugli algoritmi di Machine Learning, analizzandone i presupposti metodologici che li hanno ispirati.

È quello che cercheremo di fare in questo intervento, anche (e soprattutto) a beneficio dei “non addetti ai lavori”.

Al bando le teorie scientifiche, l’era dei Big Data è iniziata!

Inaugurata da Chris Anderson con il famoso e controverso articolo
“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete” apparso sulla rivista Wired nel 2008, l’era dei Big Data e della metodologia data-driven ad essi associata sembrava destinata a usurpare definitivamente il tradizionale metodo scientifico di ricerca, basato sulla formulazione di teorie (consistenti sostanzialmente in ipotesi) da sottoporre alla verifica dei dati empirici, solo a seguito della formulazione di adeguati modelli esplicativi “causali”.

Seguendo invece la metodologia data driven, le tradizionali fasi metodologiche venivano invertite, pretendendo così che fossero i dati a suggerire i modelli ritenuti più idonei a descrivere i fenomeni oggetto di analisi (a prescindere dalla loro validità esplicativa), sul presupposto che “i dati parlano da soli” e che quindi si tratta soltanto di “mettersi in ascolto”.

In questo modo, si riteneva di poter validamente abbandonare i tradizionali modelli basati sul concetto di “causa” (considerato un vero e proprio cimelio dei tempi andati, in cui ancora ci si illudeva di poter individuare le cause sottostanti a fenomeni complessi), giustificando tale decisione con la presunta maggiore “obiettività”, oltre che la maggiore celerità, che tale approccio rendeva possibile.

Non abbiamo bisogno di trovare le “cause”, tutto quello che ci occorre è individuare correlazioni significative all’interno dei dati: questo era in sostanza il mantra dell’approccio data-driven basato sui Big Data Analytics.

…ma non è tutto oro quello che luce nei Big Data

Tuttavia, ben presto ci si è accorti dei problemi che l’approccio data driven comportava, quando esso non era sostenuto da un impianto teorico sottostante robusto e corroborato; ci limitiamo ad elencare per brevità di trattazione solo i principali punti deboli, rinviando il lettore interessato ad approfondire le problematiche metodologiche associate alla Big Data Analytics:

correlazioni spurie, ovvero correlazioni determinate dal caso (che crescono al crescere della dimensione dei data-sets);
“cherry picking”, ovvero selezione ad-hoc dei dati;
bias sistematici presenti all’interno dei data-sets;

Tali debolezze, frutto della fragilità teorica dell’approccio metodologico sottostante, determinavano l’inaffidabilità delle previsioni formulate dai modelli ad esso ispirato, comportando di conseguenza la fine prematura (oltre che ingloriosa) di altisonanti progetti di ricerca quali ad esempio Google Flu.

Tutto questo ci riporta alla cronaca dei nostri giorni, e alla ricerca citata all’inizio dell’articolo, che ha in sostanza confermato la debolezza metodologica dei modelli “guidati dai dati” (data-driven, appunto), tra cui si inscrivono di diritto e di fatto i modelli di Machine Learning e Deep Learning.

L’ironia della sorte ha voluto che sia stato proprio il team di ricerca di Google, azienda che ha fatto dell’impiego della metodologia data driven l’oggetto principale del proprio business model, a dover denunciare tali debolezze metodologiche…

La “Sottospecificazione” e le sue implicazioni negative nel Machine Learning

Le debolezze individuate dal team di ricerca hanno un denominatore comune, che va sotto il nome di sottospecificazione (underspecification),
e influisce negativamente su un’ampia varietà di applicazioni dei modelli di Machine Learning, a partire dalla computer vision (visione artificiale) fino alla genomica medica, passando per l’analisi di immagini mediche, diagnosi cliniche basate su cartelle cliniche elettroniche ecc.

Come mostrato dalla ricerca del team di Google, il fenomeno della sottospecificazione implica che anche piccoli cambiamenti (come ad esempio la modifica dei random seeds utilizzati nella fase di training del modello), possono forzare un modello verso una soluzione completamente diversa, e quindi portare a previsioni sostanzialmente diverse.

Di conseguenza, è possibile che i modelli ereditino i bias presenti nei data-sets, che non hanno nulla a che fare con l’attività di previsione in corso, condizionandone pertanto i risultati finali.

I modelli addestrati in questo modo finirebbero quindi con il commettere errori marchiani che gli esseri umani non farebbero mai (con buona pace di chi sostiene sempre e comunque la superiorità degli algoritmi rispetto agli umani)!

Questo si traduce, ad esempio, in classificazioni completamente errate prodotte dalla macchina a seguito anche di piccole modifiche ai dati di input
(come un’immagine), che un essere umano considererebbe insignificanti, e che ignorerebbe.

Tutto ciò ha evidenti implicazioni potenzialmente esiziali nelle applicazioni da cui dipendono le vite umane, come le diagnosi mediche, o come nel caso delle previsioni prodotte dai modelli utilizzati per contrastare le pandemie…

Sottospecificazione nella modellazione pandemica

Uno tra gli impieghi recenti più importanti del Machine Learning è quello relativo alla modellazione epidemiologica della diffusione dei virus, quali ad esempio il Covid-19.

Fattori chiave considerati di questa diffusione sono il tasso di infezione, il famoso R0, e il periodo di tempo, D, durante il quale un individuo infetto è contagioso.

Ovviamente, una malattia può diffondersi più ampiamente quando è più contagiosa, e quando le persone sono infettive per più lungo tempo.

Tuttavia, la malattia diventa meno in grado di diffondersi man mano che più persone guariscono, aumentando così l’immunità di gregge.

Quindi uno degli obiettivi fondamentali dei modelli previsionali consiste nel determinare tempestivamente i valori dei parametri R0 e D, vale a dire all’inizio della pandemia, proprio quando il numero di infezioni cresce più rapidamente.

Questi parametri definiscono quindi il decorso della malattia, stimando caratteristiche come il numero massimo di infezioni, oltre a monitorare in che misura questo numero diminuisce gradualmente nel tempo.

Pertanto, sia gli epidemiologi, ma anche i decisori pubblici, hanno necessità di conoscere i valori corretti di tali parametri all’inizio della pandemia, soprattutto per capire se e quando possa verificarsi una saturazione delle strutture sanitarie.

Utilizzando un modello di machine learning è possibile quindi simulare l’andamento della pandemia, stimando i parametri R0 e D sulla base dei dati raccolti all’inizio della malattia.

Una volta che questi valori sono noti, è possibile prevedere in maniera sufficientemente affidabile l’evoluzione che avrà in futuro la malattia.

Ora, stando a quanto afferma il team di Google, questi parametri sarebbero caratterizzati da sottospecificazione proprio nelle prime fasi della pandemia.

Ciò implica che il modello previsionale possa individuare molte coppie di valori R0 e D, che descrivono accuratamente la stessa crescita esponenziale iniziale.

Tuttavia, queste coppie possono portare a previsioni future notevolmente diverse!

Il problema è dovuto al fatto che il processo di apprendimento automatico non ha modo di scegliere correttamente tra queste coppie: come mostrato dal team di Google, i parametri selezionati dal modello possono dipendere da decisioni del tutto arbitrarie, legate al modo in cui il modello è stato impostato.

La necessità di modelli semantici per il Machine Learning

Come può, quindi, un algoritmo basato su un approccio sostanzialmente induttivo, scegliere il risultato non semplicemente corretto formalmente, ma sostanzialmente sensato?

Senza una adeguata “descrizione del mondo”, vale a dire una teoria esplicativa (oltre che descrittiva) dei fenomeni, anche l’algoritmo più sofisticato è destinato a fallire.

Ma il rischio maggiore tuttavia lo corrono gli individui che basano le proprie decisioni vitali (come quelle relative alla salute) sulle “previsioni” affette da sottospecificazione, rischiando così di far la fine del tacchino induttivista di Russell!

Assistiamo quindi alla rivincita del concetto di “causa”, prematuramente fatto uscire dalla porta ma prontamente rientrato dalla finestra, come descritto esaurientemente da Judea Pearl nel suo “The Book of Why”…

Machine Learning underspecification, ovvero la rivincita della Teoria sui Big Data

Al bando le teorie scientifiche, l’era dei Big Data è iniziata!

…ma non è tutto oro quello che luce nei Big Data

La “Sottospecificazione” e le sue implicazioni negative nel Machine Learning

Sottospecificazione nella modellazione pandemica

La necessità di modelli semantici per il Machine Learning

Alessandro Parisi

Search

Tag

Search

Archivi