In un articolo di The Guardian della scorsa settimana ha discusso un interessante divario nei grandi modelli di linguaggio (come GPT-4).
Il “problema di Tom Cruise” nell’intelligenza artificiale (IA) si riferisce a una serie di limitazioni nei modelli di linguaggio di grandi dimensioni (LLM), come GPT-4, che evidenziano la loro incapacità di inferire relazioni tra fatti in modo simmetrico.
Questo fenomeno è noto come “Reversal Curse” (Maledizione della Reversibilità). In uno studio condotto da ricercatori, è stato dimostrato che i LLM possono rispondere correttamente a domande come “Chi è la madre di Tom Cruise?”, ma falliscono quando si tratta di domande inverse come “Chi è il figlio di Mary Lee Pfeiffer?”.
I ricercatori hanno testato il modello su 1.000 coppie di domande riguardanti celebrità e i loro genitori, scoprendo che il modello spesso non riusciva a rispondere correttamente alla seconda domanda, nonostante avesse risposto correttamente alla prima.
Questo problema non è limitato a scenari semplificati; è una questione intrinseca alla struttura dei dati di addestramento, dove ci sono meno esempi di relazioni in cui il genitore precede la celebrità.
Una spiegazione per questo fenomeno è che i LLM non comprendono realmente le relazioni tra i fatti, ma piuttosto le associazioni tra i token. Ad esempio, “madre di Tom Cruise” è associato a “Mary Lee Pfeiffer”, ma non viceversa. Questo porta a una mancanza di ragionamento genuino, poiché il modello manipola parole senza una reale comprensione del significato.
Questo problema di asimmetria si riflette anche nel comportamento umano. Sebbene il ragionamento umano sia simmetrico, il richiamo delle informazioni può essere asimmetrico. È più facile ricordare fatti interessanti su celebrità piuttosto che informazioni meno note. Ad esempio, è più semplice elencare tutti i 50 stati americani piuttosto che identificare il paese a cui appartengono se presentati in un formato diverso.
Le limitazioni dei LLM sollevano dubbi sulla loro capacità di raggiungere l’intelligenza artificiale generale (AGI) nel prossimo futuro.
Esperti come Gary Marcus hanno sottolineato che questi modelli faticano anche con problemi che richiedono un ragionamento più complesso. Ad esempio, domande che sembrano semplici enigmi possono confondere i chatbot, evidenziando ulteriormente le loro carenze.
Nel 2021, la linguista Emily Bender e l’informatico Timnit Gebru hanno pubblicato un articolo definendo i modelli linguistici come “pappagalli stocastici”. Hanno scritto che un modello linguistico “cuce casualmente sequenze di forme linguistiche dai dati di addestramento, basandosi su informazioni probabilistiche su come si combinano, senza riferirsi al significato”.
Fund independent journalism with €12 per month Support The Guardian