Il recente studio GSM-Symbolic: Understanding the Limitations of
Mathematical Reasoning in Large Language Models, di Apple, esamina le limitazioni del ragionamento delle intelligenze artificiali (IA) in particolare nei modelli linguistici avanzati, evidenziando come piccoli cambiamenti in problemi matematici possano compromettere la loro capacità di risolverli correttamente.

“Fantastico, abbiamo creato un’IA che risolve problemi matematici di scuola elementare… a patto che i numeri non cambino mai! La prossima frontiera sarà farle distinguere tra ‘contare mele’ e ‘aggiungere banane’, ma non mettiamo troppa pressione sul nostro nuovo ‘genio’ tecnologico!”

DINA

Il documento scientifico esplora le capacità di ragionamento matematico delle IA, in particolare dei modelli di linguaggio su larga scala (Large Language Models o LLM), i quali hanno dimostrato abilità eccezionali in vari campi, come il linguaggio naturale e la creatività, ma che mostrano significative debolezze nel risolvere problemi di matematica elementare.

Uno dei punti chiave del documento è l’uso del dataset GSM8K, progettato per valutare le capacità matematiche di questi modelli su domande di livello scolastico. Tuttavia, l’affidabilità di questi risultati è messa in discussione, poiché i modelli hanno mostrato ampie variazioni di prestazione a seconda di come i problemi vengono presentati, in particolare quando i numeri nei quesiti vengono modificati.

Il team di ricerca ha creato un nuovo benchmark, GSM-Symbolic, per valutare in modo più controllabile le capacità di ragionamento delle IA. Utilizzando template simbolici, questo approccio permette di generare varianti delle domande, fornendo una valutazione più affidabile delle capacità dei modelli rispetto al GSM8K originale.

Le scoperte mostrano che anche piccoli cambiamenti nei numeri all’interno delle domande possono causare un drastico calo delle prestazioni, suggerendo che i modelli non utilizzano un vero ragionamento logico, ma tentano piuttosto di replicare i modelli appresi nei dati di addestramento. Questo comportamento è ulteriormente accentuato quando vengono aggiunte clausole irrilevanti ai problemi, portando a errori significativi anche nei modelli più avanzati.

I ricercatori mettono in evidenza un aspetto cruciale: i modelli di IA sembrano essere più robusti rispetto ai cambiamenti superficiali (come la modifica dei nomi propri), ma risultano molto vulnerabili a cambiamenti nei valori numerici. Man mano che la complessità delle domande aumenta, le capacità di ragionamento dell’IA si deteriorano rapidamente, suggerendo che attualmente questi modelli non siano in grado di effettuare un ragionamento formale in senso stretto, bensì seguano un processo di pattern-matching.

Questi risultati mettono in discussione l’affidabilità dei modelli di IA in compiti di ragionamento complesso, evidenziando che il loro successo in test come GSM8K potrebbe essere in parte dovuto alla contaminazione dei dati di addestramento o a metodi di ragionamento non formali.

Questo rappresenta una limitazione fondamentale nell’applicazione delle IA in compiti che richiedono una comprensione più profonda e generalizzabile, soprattutto in contesti matematici e scientifici. I ricercatori propongono ulteriori indagini per migliorare la valutazione e lo sviluppo dei modelli di IA, sottolineando l’importanza di test più variabili e complessi che permettano di esplorare le reali capacità di ragionamento delle macchine.