Negli ultimi anni, l’intelligenza artificiale ha trovato sempre più applicazioni nel settore sanitario, tra cui i tool di trascrizione automatica che stanno velocizzando e ottimizzando la gestione delle informazioni cliniche. Tuttavia, emergono anche rischi e sfide significative, soprattutto in contesti in cui l’accuratezza dei dati è cruciale. Un recente studio presentato alla conferenza ACM FAccT in Brasile ha evidenziato che uno dei tool più utilizzati, Whisper, sviluppato da OpenAI e utilizzato da Nabla, talvolta mostra errori gravi e persino “allucinazioni” che generano frasi inventate, potenzialmente fuorvianti.
Whisper è al centro di questo dibattito dopo che alcuni ricercatori di Cornell University e University of Washington hanno dimostrato come questo modello di trascrizione, attualmente implementato in più di 30.000 studi clinici e 40 sistemi sanitari, possa generare errori interpretativi preoccupanti. La piattaforma, infatti, avrebbe trascritto frasi inesistenti durante pause o silenzi nei dialoghi medici, talvolta inserendo frasi violente o termini privi di senso, soprattutto in conversazioni con pazienti affetti da afasia, una condizione che spesso genera pause prolungate nel discorso. Lo studio, utilizzando come fonte il database TalkBank’s AphasiaBank, ha dimostrato che il modello Whisper ha “allucinato” contenuti in circa l’1% delle trascrizioni. Sebbene la percentuale possa sembrare contenuta, il rischio rimane elevato nei contesti clinici, dove un singolo errore interpretativo può avere ripercussioni rilevanti.
Per comprendere meglio la portata del problema, la ricercatrice Allison Koenecke di Cornell University ha condiviso alcuni esempi in cui Whisper ha inserito frasi di saluto tipiche di un video di YouTube, come “Grazie per aver guardato!”. Questo dettaglio fa emergere un possibile legame tra i dati su cui il modello è stato addestrato, ovvero oltre un milione di ore di video YouTube, e l’emergere di frasi inappropriate in contesti medici. La stessa OpenAI ha confermato tramite la portavoce Taya Christianson che, nonostante gli sforzi per ridurre tali errori, le “allucinazioni” rappresentano ancora una sfida significativa.
Le implicazioni di questi errori non si limitano alla trascrizione. Un’informazione errata potrebbe distorcere la comprensione del caso clinico o introdurre diagnosi inesistenti, mettendo a rischio il processo decisionale medico. Nabla, consapevole del problema, ha dichiarato di essere al lavoro per risolvere il problema delle “allucinazioni” nelle sue trascrizioni. Nonostante le misure preventive, come politiche di utilizzo che vietano l’uso di Whisper in contesti ad alto rischio, gli errori persistono, e il settore deve affrontare con urgenza la necessità di perfezionare questi strumenti.
Questa ricerca, che deve ancora essere sottoposta a revisione paritaria, evidenzia la necessità di una maggiore attenzione verso l’addestramento e l’ottimizzazione degli algoritmi AI in ambiti ad alto impatto come la sanità. Mentre l’AI sta mostrando un potenziale rivoluzionario, la sua applicazione richiede una gestione etica e responsabile.