Una nuova ricerca condotta dal MIT ha messo in luce come i modelli di intelligenza artificiale (IA) utilizzati per analizzare le immagini mediche, in particolare le radiografie, possano essere influenzati da bias. Questi modelli, capaci di prevedere caratteristiche demografiche come razza, genere e età di un paziente, tendono a usare tali tratti come scorciatoie nei loro processi diagnostici, portando a diagnosi imprecise per donne e persone di colore.

La Capacità Predittiva e le Disparità

Nel 2022, un team di ricercatori del MIT aveva scoperto che i modelli di IA erano in grado di fare previsioni accurate sulla razza di un paziente a partire da radiografie toraciche, un compito che nemmeno i radiologi più esperti riescono a svolgere con la stessa efficacia. Ora, la stessa squadra ha dimostrato che i modelli più accurati nelle previsioni demografiche presentano anche i più ampi “gap di giustizia”, cioè discrepanze nella loro capacità di diagnosticare correttamente le immagini di persone di diverse razze o generi. I ricercatori affermano che ciò suggerisce che i modelli potrebbero utilizzare “scorciatoie demografiche” nelle loro valutazioni diagnostiche.

Marzyeh Ghassemi, professoressa associata di ingegneria elettrica e informatica al MIT, ha sottolineato l’importanza di questo studio, affermando:

“Questo articolo dimostra nuovamente che i modelli di machine learning ad alta capacità sono buoni predittori di demografie umane come razza, sesso o età auto-riportati. Tuttavia, questo porta a prestazioni inferiori in gruppi diversi, un aspetto che non era mai stato collegato prima.”

Strategie di “Debiasing”

I ricercatori hanno anche trovato modi per riaddestrare i modelli al fine di migliorarne l’equità. Tuttavia, i loro approcci hanno funzionato meglio quando i modelli venivano testati su pazienti dello stesso tipo rispetto a quelli utilizzati per l’addestramento, come ad esempio pazienti dello stesso ospedale. Quando i modelli sono stati applicati a pazienti di ospedali diversi, i gap di giustizia sono riemersi.

Haoran Zhang, studente laureato al MIT e co-autore dello studio, ha affermato: “Le principali conclusioni sono che bisogna valutare attentamente qualsiasi modello esterno sui propri dati, poiché eventuali garanzie di giustizia fornite dagli sviluppatori del modello sui dati di addestramento potrebbero non trasferirsi alla propria popolazione.”

Rimuovere il Bias: Una Sfida Complessa

Ad oggi, la FDA ha approvato 882 dispositivi medici abilitati all’IA, di cui 671 progettati per essere utilizzati in radiologia. Dallo studio del 2022 condotto da Ghassemi e colleghi, è emerso che questi modelli diagnostici non solo possono prevedere la razza, ma anche il genere e l’età con notevole precisione, nonostante non siano stati addestrati specificamente per tali compiti.

La ricerca ha mostrato che i modelli tendono a sfruttare le informazioni demografiche per determinare la presenza di una condizione medica, anziché basarsi su altre caratteristiche delle immagini. Utilizzando dataset di radiografie toraciche disponibili pubblicamente, i ricercatori hanno addestrato modelli per prevedere la presenza di tre diverse condizioni mediche: accumulo di liquido nei polmoni, polmone collassato e ingrossamento del cuore.

Efficacia e Limitazioni dei Modelli

Nonostante i modelli abbiano mostrato buone prestazioni, la maggior parte di essi ha rivelato “gap di giustizia” tra i tassi di accuratezza per uomini e donne, e tra pazienti bianchi e neri. Inoltre, i modelli sono stati in grado di prevedere con precisione il genere, la razza e l’età dei soggetti delle radiografie. La ricerca ha indicato una correlazione significativa tra l’accuratezza delle previsioni demografiche di ogni modello e l’ampiezza del gap di giustizia.

Per ridurre questi gap, i ricercatori hanno provato due strategie: una mirata a ottimizzare la “robustezza dei sottogruppi”, premiando i modelli per prestazioni migliori nei gruppi con le peggiori performance, e l’altra rimuovendo completamente le informazioni demografiche dalle immagini.

Risultati e Prospettive Future

Sebbene entrambe le strategie abbiano funzionato bene in scenari specifici, i modelli hanno mostrato limitazioni quando testati su dati di pazienti diversi rispetto a quelli utilizzati per l’addestramento. Zhang ha avvertito che “la giustizia ottenuta in un set di pazienti non si traduce necessariamente in un’altra popolazione.”

Questo è preoccupante perché molti ospedali utilizzano modelli sviluppati su dati provenienti da altri ospedali, in particolare quando acquistano modelli preconfezionati. Ghassemi ha concluso che “anche i modelli all’avanguardia, ottimizzati per le prestazioni in dati simili ai loro set di addestramento, non sono ottimali in nuove situazioni.”

I ricercatori intendono ora sviluppare e testare ulteriori metodi per creare modelli che possano fare previsioni più eque su nuovi dataset. Le scoperte suggeriscono che gli ospedali dovrebbero valutare questi modelli sulla propria popolazione di pazienti prima di utilizzarli, per garantire che non producano risultati imprecisi per determinati gruppi.

La ricerca è stata finanziata da una serie di organizzazioni, tra cui il Google Research Scholar Award e la Robert Wood Johnson Foundation.