È bastato un videogioco giapponese degli anni 2000, con grafica pixelata e drammi da soap legale, per mettere in crisi i più avanzati cervelloni digitali del momento. I ricercatori dell’Hao AI Lab dell’Università della California a San Diego hanno avuto un’idea tanto geniale quanto beffarda: testare i più sofisticati modelli di intelligenza artificiale chiedendo loro di giocare a Phoenix Wright: Ace Attorney, il titolo cult in cui un giovane avvocato difende clienti accusati ingiustamente, a colpi di obiezioni teatrali, indagini surreali e deduzioni da investigatore logico.
Il test non era un capriccio accademico, ma un esperimento su vasta scala per verificare se gli LLM (Large Language Models) siano davvero capaci di gestire problemi complessi che richiedono non solo competenze linguistiche, ma anche ragionamento induttivo, riconoscimento visivo, coerenza narrativa e, soprattutto, senso logico del mondo.
Risultato? Più che “intelligenza artificiale”, è sembrata “confusione algoritmica”.
A fronte di un compito tanto strutturato quanto quotidiano per un essere umano — trovare contraddizioni nei racconti dei testimoni, incrociare prove, dedurre la verità solo due modelli hanno mostrato un minimo di padronanza. o1 e Gemini 2.5 Pro sono riusciti ad arrivare fino al livello 4 del gioco, identificando rispettivamente 26 e 20 prove corrette. Ma, ironia della sorte, nessuno dei due è riuscito a risolvere il caso fino in fondo. In un’aula di tribunale reale, sarebbero stati cacciati dal giudice per incompetenza manifesta.
Il nuovo GPT-4.1 quello che in teoria dovrebbe sbaragliare la concorrenza si è schiantato contro il muro della logica: solo sei prove corrette, il che lo pone sullo stesso piano del vetusto Claude 3.5 Sonnet. Llama-4 Maverick, con meno di 10 prove azzeccate, ha completato il quadro del disastro.
La cosa affascinante, e allo stesso tempo deprimente, è che Ace Attorney non è un gioco d’azione o di riflessi. È un puzzle legale strutturato, che simula il processo decisionale umano, fatto di contesto, implicazioni, interpretazione di indizi e storytelling coerente. Esattamente il tipo di sfida che gli LLM dichiarano di saper dominare. Ma qui non si tratta di autocompletare frasi o generare una poesia in stile Bukowski. Qui si tratta di pensare davvero. E gli LLM, almeno per ora, sembrano ancora fermarsi a metà strada tra la grammatica e il delirio.
Il paradosso è chiaro: modelli che possono passare esami da avvocato, scrivere codice, comporre musica e simulare Shakespeare… si perdono in un gioco che un ragazzino delle medie riesce a completare in un weekend.
Ciò che emerge non è solo il limite tecnico, ma il nodo strutturale: il ragionamento a lungo termine è ancora una chimera. I modelli sanno processare informazioni, ma non mantengono il filo. Perdono il contesto. Mancano di agency. Non sanno davvero perché stanno facendo qualcosa. E nel mondo del diritto simulato o reale questo non è un dettaglio: è tutto.
Per chi si illudeva che l’IA potesse sostituire giudici, avvocati o detective entro fine decennio, questo test rappresenta una doccia fredda. O, per i più cinici, una conferma: l’IA sa imitare la forma dell’intelligenza, ma non ne possiede ancora la sostanza.
Il gioco continua, certo, e i modelli miglioreranno. Ma oggi il verdetto è chiaro: l’IA in aula non è ancora pronta. E Phoenix Wright può dormire sonni tranquilli.