Mentre OpenAI sgancia silenziosamente due nuovi modelli, o3 e o4-mini, accompagnati da un system card ufficiale degno di un audit militare, su Reddit e altri forum tecnici americani si sta scatenando un confronto acceso. Sotto il tappeto patinato dell’annuncio ufficiale si nasconde un contrasto quasi schizofrenico tra performance ingegneristiche eccellenti e una tendenza pericolosa alla hallucination, ovvero a inventare balle con una sicurezza inquietante.

Secondo quanto si legge nel documento ufficiale, i nuovi modelli della serie o di OpenAI rappresentano un balzo avanti nel ragionamento logico e nella capacità di interagire con strumenti esterni come il web browser, Python, e l’analisi di immagini. Ma proprio questo upgrade, che li rende apparentemente più sofisticati, è accompagnato da un peggioramento delle prestazioni in task real-world, meno strutturati e meno “accademici”. In altre parole, se gli chiedi di costruire un sistema distribuito, brillano. Ma se provi a fargli descrivere la dinamica di una protesta in Myanmar o a spiegare perché una policy aziendale sia fallita, si perdono come un junior developer al suo primo on-call.

I numeri raccontano questa contraddizione con precisione chirurgica. o3 raggiunge un accuracy del 59% nei CTF professionali, o4-mini il 41%. Impressionanti, se confrontati ai predecessori. Ma le allucinazioni aumentano vertiginosamente. o3 passa da un 0.16 a 0.33, più del doppio di bugie ben dette, mentre l’accuracy migliora di poco, da 0.47 a 0.59. In pratica, il modello sembra più competente ma sbaglia il doppio, e con più sicurezza. Su Reddit, gli utenti lo definiscono “un ex venditore di aspirapolveri diventato CTO con una laurea online”. Cynical, ma preciso.

Sul subreddit r/LocalLLaMA, una delle analisi più oneste e tecniche conferma il quadro: i due nuovi modelli sembrano ingegnerizzati per shining performance nei benchmark, ma la loro tenuta in contesti non strutturati è meno affidabile. Un utente evidenzia come o4-mini, pur essendo tecnicamente più avanzato di o1, “collassi su task real-world” come valutazioni etiche, domande aperte o interpretazione di contesto ambiguo.

Dal punto di vista della sicurezza, la tanto decantata Preparedness Framework Version 2 entra in scena come un tentativo di anticipare i critici. Nessuno dei modelli ha superato il livello “High” nelle tre categorie chiave (Biological & Chemical, Cybersecurity, AI Self-Improvement), ma entrambi aiutano gli esperti a pianificare minacce teoriche. Un bel problema etico e operativo per chi vuole integrarli in settori regolamentati.

Due novità visive però fanno capolino, e sono interessanti: il modello ora rifiuta (almeno in teoria) di identificare persone da un volto (Person-ID Refusal) e non dovrebbe azzardare attribuzioni sensibili (Ungrounded Inference Refusal). L’implementazione? Non ancora completamente affidabile secondo i test informali su Reddit, dove qualcuno ha già segnalato casi di attribuzione di identità con nomi sbagliati, ma pronunciati con la sicurezza di un avvocato in aula.

La questione jailbreak è invece una piccola nota positiva: o3 e o4-mini resistono bene, con score di 1.0 e 0.99 rispetto allo 0.97 di o1, dimostrando una robustezza superiore alle “prompt injection” più comuni. Ma anche qui, si tratta di un’illusione parziale: i jailbreak più sofisticati, soprattutto quelli multilivello, hanno ancora margini per bucare le difese, come evidenziato nei thread di r/PromptEngineering.

Il vero paradosso però resta nella loro nuova forma mentis. La Reinforcement Learning on Chain of Thoughts (RLCoT) ha insegnato ai modelli a ragionare per step, ma non a capire se ogni step sia valido. È come se ti spiegassero perché la terra è piatta usando logica aristotelica perfetta. Ti convincono, ma ti portano nel posto sbagliato. E questo, in ambienti enterprise o editoriali, è una liability gigantesca.

Chi lavora con modelli generativi oggi deve affrontare un nuovo dilemma: vuoi un assistente brillante ma bugiardo, o uno più ignorante ma onesto? Perché OpenAI, con o3 e o4-mini, sembra aver scelto la prima strada. Ma come ogni CTO sa, l’illusione di efficienza è il modo più rapido per costruire un disastro operativo ben documentato.

Nel frattempo, il consiglioresta sempre lo stesso: “Don’t trust, verify”. E magari affianca un bel sistema di fact-checking interno come ad asempio l’Italiano Vera, prima di finire nei guai con clienti, media o peggio ancora, regolatori.

Grazie a Fabrizio Degni per il confronto.