Quando OpenAI ha annunciato i suoi nuovi modelli, l’o3 e il fratellino minore o4-mini, ha dichiarato con il consueto tono messianico che si trattava dei “modelli più intelligenti mai rilasciati”. Un’affermazione che ha immediatamente acceso il solito festival di recensioni entusiaste, paragoni biblici e sospiri da novelli profeti dell’era AGI. Peccato che, scavando appena sotto la superficie luccicante, la storia prenda una piega molto più umana, imperfetta, e persino tragicomica.
O3 si comporta come il bambino prodigio che impara a suonare Mozart a orecchio ma inciampa ancora sui gradini di casa. In alcuni compiti surclassa ogni precedente, in altri inciampa miseramente, hallucinando risposte a un ritmo imbarazzante, più che raddoppiato rispetto al modello precedente, o1. Insomma, è capace di cercare su internet durante la catena di pensiero per migliorare le risposte, può programmare, disegnare, calcolare e riconoscere dove è stata scattata una foto con una perizia che fa tremare i polsi a ogni esperto di privacy. Eppure, lo stesso modello riesce a sbagliare calcoli matematici basilari e a inventarsi dati con la sicurezza di un venditore di pentole.

L’economista-blogger Tyler Cowen ha dichiarato candidamente che, secondo lui, l’o3 “è AGI, seriamente”, liquidando i test di benchmark come “bla bla bla”. Che classe. Siamo ufficialmente entrati nell’era in cui l’intelligenza artificiale si giudica “a occhio”, come un buon vino, o peggio ancora, come l’arte di riconoscere la pornografia: “la riconosco quando la vedo”.

Più che una linea retta di progresso, siamo davanti a un “fronte frastagliato”, come lo definisce Ethan Mollick, docente e analista AI. A volte questi modelli sono divinità dell’efficienza, a volte sono troll confusionari. Ed è proprio questo il problema che mette in crisi chi ancora sogna un’AI industriale, prevedibile e scientificamente governabile come un reattore nucleare o un ponte sospeso.
I dati, d’altronde, parlano chiaro: nello studio sulla performance di analisi finanziaria, l’o3 è stato il migliore tra i modelli, ma ha fornito risultati accurati solo nel 48,3% dei casi, con un costo per query stellare di 3,69 dollari. Insomma, la Ferrari dell’AI che ogni tanto prende una buca e si ribalta al primo dosso.
Il vero punto che emerge, cinicamente, è che costruire un’intelligenza artificiale oggi è ancora più simile a crescere un adolescente problematico che ad assemblare un’astronave. Gli ingegneri software si sono fatti il mazzo per 50 anni a rendere i loro sistemi più affidabili, modulari e scalabili. L’AI? Sta ancora vivendo la sua fase emo: imprevedibile, talentuosa e profondamente frustrante.
Ecco perché ogni nuovo modello porta con sé una sensazione misto di meraviglia e angoscia: sì, abbiamo qualcosa di straordinariamente nuovo tra le mani. Ma no, non abbiamo ancora la più pallida idea di come farlo crescere senza che un giorno decida di diventare il nuovo Napoleone o peggio, l’ennesimo influencer da TikTok.
Nel frattempo, OpenAI, anziché dare risposte, sembra più intento a vendere biglietti per lo spettacolo. E noi, come al solito, applaudiamo. O tremiamo. A seconda dell’umore della giornata.