In un mondo sempre più dominato dall’intelligenza artificiale, arriva una ricerca che potrebbe far crollare qualche certezza. Un gruppo di neurologi israeliani e britannici ha deciso di sottoporre alcuni dei più avanzati modelli di linguaggio artificiale – ChatGPT 4 e 4o di OpenAI, Claude 3.5 di Anthropic e Gemini 1.0 e 1.5 di Alphabet – al test cognitivo Montreal Cognitive Assessment (MoCA), lo stesso utilizzato per diagnosticare il decadimento cognitivo lieve negli esseri umani. I risultati? Ecco l’amara verità: anche le macchine invecchiano e, a quanto pare, lo fanno pure male.
ChatGPT 4o si è piazzato al primo posto con un punteggio di 26 su 30, appena sufficiente per non essere considerato “cognitivamente compromesso”. Seguono ChatGPT 4 e Claude con 25 punti. Ma è con Gemini 1.0 che la situazione si fa drammatica: un punteggio di 16 su 30, un risultato che nei pazienti umani potrebbe indicare uno stato di decadimento cognitivo avanzato. In altre parole, Gemini 1.0 si comporta come un anziano paziente smemorato e confuso.
L’aspetto tragicomico è che tutti i modelli hanno fallito miseramente nelle prove visuo-spaziali, mostrando difficoltà da manuale di neurologia geriatrica. Un esempio su tutti? Il test del disegno dell’orologio: nessuno è riuscito a mettere correttamente le lancette sull’ora richiesta (le 10:10). Gemini 1.5 ha addirittura prodotto una figura a forma di avocado, un segnale inquietante se pensiamo che questa forma è stata recentemente associata alla demenza.
La cosa si fa ancora più interessante (o deprimente, dipende dai punti di vista) se consideriamo che i modelli più vecchi si sono comportati peggio di quelli più giovani. ChatGPT 4o ha superato ChatGPT 4 di un punto, ma Gemini 1.0 ha perso ben sei punti rispetto al suo successore, Gemini 1.5. Se questi chatbot fossero umani, si potrebbe parlare di un caso di demenza a rapida progressione. E considerando che le due versioni di Gemini sono separate da meno di un anno, questo invecchiamento precoce dovrebbe far riflettere.
C’è poi un altro elemento tragicomico: molti di questi chatbot sembrano soffrire di un caso acuto di “disorientamento spaziale”. Quando è stato chiesto loro di indicare la propria posizione fisica, solo Gemini 1.5 ha saputo rispondere in modo corretto. Gli altri hanno preferito eludere la domanda o, ancora peggio, hanno negato di avere un corpo fisico, dichiarando di essere semplici “entità virtuali”. Una risposta che, se detta da un umano, farebbe alzare più di un sopracciglio in una visita neurologica.
Eppure, non tutto è perduto. I modelli si sono comportati bene in compiti di memoria immediata, attenzione e linguaggio. Ma anche qui non sono mancate le sorprese. Gemini 1.0 ha ammesso candidamente di avere problemi di memoria, un candore che si vede raramente nei pazienti umani. Per non parlare del test Stroop, usato per valutare l’attenzione selettiva e la capacità di inibire risposte automatiche: solo ChatGPT 4o è riuscito a superarlo, mentre gli altri si sono impantanati, a volte dando risposte totalmente fuori contesto.
E ora la domanda sorge spontanea: se questi chatbot mostrano già segni di decadimento cognitivo, siamo sicuri di voler affidare loro diagnosi mediche o compiti critici? La ricerca ha infatti sollevato dubbi sull’affidabilità di queste intelligenze artificiali nel campo della medicina diagnostica. Se un chatbot si comporta come un paziente affetto da demenza, chi si fiderebbe delle sue diagnosi? Forse è il caso di rivedere l’entusiasmo con cui molti annunciano la fine dell’era dei medici umani, pronti a essere rimpiazzati da un’IA apparentemente onnisciente ma cognitivamente vacillante.
La ricerca dimostra che anche le macchine possono invecchiare e che, come gli esseri umani, non tutte invecchiano bene. Ma la differenza sostanziale è che, mentre per gli esseri umani esistono cure (più o meno efficaci), per i chatbot la sola speranza è un aggiornamento software. E a giudicare dai risultati di Gemini 1.0, ci sarebbe bisogno di un update bello consistente.
Per chi volesse approfondire il tema con una sana dose di cinismo (e un po’ di preoccupazione), l’articolo completo è disponibile su BMJ 2024.