Prima di ricevere un dottorato di ricerca in informatica dal MIT nel 2017, Marzyeh Ghassemi aveva già iniziato a chiedersi se l’uso delle tecniche di intelligenza artificiale potesse migliorare i pregiudizi che già esistevano nell’assistenza sanitaria. È stata una delle prime ricercatrici a occuparsi di questo problema e da allora lo sta esplorando. In un nuovo articolo, Ghassemi, ora assistente professore presso il Dipartimento di Scienze e Ingegneria Elettrica (EECS) del MIT, e tre collaboratori del Computer Science and Artificial Intelligence Laboratory, hanno sondato le radici delle disparità che possono sorgere nell’apprendimento automatico, spesso facendo vacillare i modelli che nel complesso funzionano bene quando si tratta di sottogruppi per i quali sono stati raccolti e utilizzati relativamente pochi dati nel processo di addestramento. Il documento – scritto da due dottorandi del MIT, Yuzhe Yang e Haoran Zhang, la scienziata informatica EECS Dina Katabi (la professoressa Thuan e Nicole Pham) e Ghassemi – è stato presentato il mese scorso alla 40a conferenza internazionale sull’apprendimento automatico a Honolulu, Hawaii.
Nella loro analisi, i ricercatori si sono concentrati sui “cambiamenti di sottopopolazione”, ovvero le differenze nel modo in cui i modelli di apprendimento automatico si comportano per un sottogruppo rispetto a un altro. “Vogliamo che i modelli siano equi e funzionino ugualmente bene per tutti i gruppi, ma invece osserviamo costantemente la presenza di cambiamenti tra gruppi diversi che possono portare a diagnosi e cure mediche inferiori”, afferma Yang, che insieme a Zhang sono i due principali autori sulla carta. Il punto principale della loro indagine è determinare i tipi di spostamenti di sottopopolazione che possono verificarsi e scoprire i meccanismi dietro di essi in modo che, in ultima analisi, possano essere sviluppati modelli più equi.
Il nuovo documento “avanza in modo significativo la nostra comprensione” del fenomeno dello spostamento della sottopopolazione, afferma l’informatico della Stanford University Sanmi Koyejo. “Questa ricerca fornisce preziose informazioni per futuri progressi nelle prestazioni dei modelli di machine learning su sottogruppi sottorappresentati”.
Cammelli e bovini
Il gruppo del MIT ha identificato quattro tipi principali di cambiamenti – correlazioni spurie, squilibrio di attributi, squilibrio di classe e generalizzazione di attributi – che, secondo Yang, “non sono mai stati messi insieme in un quadro coerente e unificato. Abbiamo escogitato un’unica equazione che mostra da dove possono provenire i pregiudizi”.
I pregiudizi possono, infatti, derivare da ciò che i ricercatori chiamano la classe, o dall’attributo, o da entrambi. Per fare un semplice esempio, supponiamo che il compito assegnato al modello di apprendimento automatico sia ordinare le immagini di oggetti, in questo caso animali, in due classi: mucche e cammelli. Gli attributi sono descrittori che non si riferiscono specificamente alla classe stessa. Potrebbe risultare, ad esempio, che tutte le immagini utilizzate nell’analisi mostrino mucche in piedi sull’erba e cammelli sulla sabbia: erba e sabbia qui sono gli attributi. Dati i dati a sua disposizione, la macchina potrebbe giungere a una conclusione errata, vale a dire che le mucche possono essere trovate solo sull’erba, non sulla sabbia, mentre per i cammelli è vero il contrario. Una tale scoperta sarebbe errata, tuttavia, dando origine a una correlazione spuria, che, spiega Yang, è un “caso speciale” tra i turni di sottopopolazione – “uno in cui hai un pregiudizio sia nella classe che nell’attributo”.
In un contesto medico, si potrebbe fare affidamento su modelli di apprendimento automatico per determinare se una persona ha o meno la polmonite sulla base di un esame delle immagini a raggi X. Ci sarebbero due classi in questa situazione, una composta da persone che hanno il disturbo polmonare, un’altra per coloro che non hanno infezioni. Un caso relativamente semplice implicherebbe solo due attributi: le persone che ricevono i raggi X sono donne o uomini. Se, in questo particolare set di dati, ci fossero 100 maschi con diagnosi di polmonite per ogni femmina con diagnosi di polmonite, ciò potrebbe portare a uno squilibrio degli attributi e il modello probabilmente farebbe un lavoro migliore nel rilevare correttamente la polmonite per un uomo che per una donna . Allo stesso modo, avere soggetti sani (senza polmonite) 1.000 volte in più rispetto a quelli malati porterebbe a uno squilibrio di classe, con il modello orientato verso i casi sani. La generalizzazione degli attributi è l’ultimo cambiamento evidenziato nel nuovo studio. Se il tuo campione conteneva 100 pazienti di sesso maschile con polmonite e zero soggetti di sesso femminile con la stessa malattia, vorresti comunque che il modello fosse in grado di generalizzare e fare previsioni sui soggetti di sesso femminile anche se non ci sono campioni nei dati di addestramento per le donne con polmonite.
Il team ha quindi preso 20 algoritmi avanzati, progettati per svolgere compiti di classificazione, e li ha testati su una dozzina di set di dati per vedere come si comportavano in diversi gruppi di popolazione. Hanno raggiunto alcune conclusioni inaspettate: migliorando il “classificatore”, che è l’ultimo strato della rete neurale, sono stati in grado di ridurre il verificarsi di correlazioni spurie e squilibri di classe, ma gli altri cambiamenti non sono stati influenzati. I miglioramenti al “codificatore”, uno degli strati più alti della rete neurale, potrebbero ridurre il problema dello squilibrio degli attributi. “Tuttavia, indipendentemente da ciò che abbiamo fatto al codificatore o al classificatore, non abbiamo visto alcun miglioramento in termini di generalizzazione degli attributi”, afferma Yang, “e non sappiamo ancora come affrontarlo”.
Precisamente accurato
C’è anche la questione di valutare quanto bene il tuo modello funzioni effettivamente in termini di imparzialità tra i diversi gruppi di popolazione. La metrica normalmente utilizzata, chiamata accuratezza del gruppo peggiore o WGA, si basa sul presupposto che se è possibile migliorare l’accuratezza, ad esempio, della diagnosi medica, per il gruppo che ha le peggiori prestazioni del modello, si avresti migliorato il modello come un’intera. “Il WGA è considerato il gold standard nella valutazione della sottopopolazione”, sostengono gli autori, ma hanno fatto una scoperta sorprendente: l’aumento della precisione del gruppo peggiore si traduce in una diminuzione di quella che chiamano “precisione del caso peggiore”. Nel processo decisionale medico di ogni tipo, sono necessarie sia l’accuratezza, che parla della validità dei risultati, sia la precisione, che si riferisce all’affidabilità della metodologia. “La precisione e l’accuratezza sono entrambe metriche molto importanti nelle attività di classificazione, e questo è particolarmente vero nella diagnostica medica”, spiega Yang. “Non dovresti mai scambiare la precisione con l’accuratezza. Devi sempre bilanciare i due.
Gli scienziati del MIT stanno mettendo in pratica le loro teorie. In uno studio che stanno conducendo con un centro medico, stanno esaminando set di dati pubblici per decine di migliaia di pazienti e centinaia di migliaia di radiografie del torace, cercando di vedere se è possibile che i modelli di apprendimento automatico funzionino in modo imparziale modo per tutte le popolazioni. Questo è ancora lontano dal caso, anche se è stata attirata maggiore consapevolezza su questo problema, dice Yang. “Stiamo riscontrando molte disparità tra età, genere, etnia e gruppi intersezionali diversi”.
Lui ei suoi colleghi concordano sull’obiettivo finale, che è raggiungere l’equità nell’assistenza sanitaria tra tutte le popolazioni. Ma prima di poter raggiungere quel punto, sostengono, abbiamo ancora bisogno di una migliore comprensione delle fonti di ingiustizia e di come permeano il nostro sistema attuale. Riformare il sistema nel suo insieme non sarà facile, riconoscono. In effetti, il titolo del documento che hanno presentato alla conferenza di Honolulu, “Change is Hard”, fornisce alcune indicazioni sulle sfide che loro e ricercatori che la pensano allo stesso modo devono affrontare.
Questa ricerca è finanziata dal MIT-IBM Watson AI Lab.