Nel grande show dell’intelligenza artificiale, OpenAI cala due assi: o3 e o4-mini, i nuovi modelli di ragionamento destinati a cambiare il gioco o almeno a riscriverne le regole con un tratto più sottile, più veloce e, sorprendentemente, visivo. Non siamo più nel campo dell’elaborazione del linguaggio, siamo nella frontiera in cui un modello guarda, osserva, riflette e agisce. E sì, ragiona con immagini.

Partiamo dal pezzo forte, o3, che OpenAI presenta come il suo modello “di ragionamento più potente”. Cosa significa? Che l’era del semplice completamento predittivo delle frasi è finita. Qui si parla di catene logiche complesse, inferenze tra testi e immagini, collegamenti dinamici tra fonti, strumenti e rappresentazioni visuali. Lo definiscono “reasoning model” ma sotto il cofano è una macchina epistemologica. E se suona esagerato, basta vedere cosa fa: integra immagini direttamente nella catena di pensiero, analizza schizzi, whiteboard, zooma su dettagli e ruota immagini per inferire concetti. Come se un architetto, uno scienziato e un designer si fossero fusi in un’unica entità che dialoga in tempo reale con te.

Poi c’è il fratello minore, o4-mini. Più piccolo, più veloce, ma con performance che definire “notevoli” per dimensioni e costo è eufemistico, almeno secondo OpenAI. Ed è qui che si gioca una partita interessante: il modello leggero per usi enterprise, dove conta più l’agilità del peso intellettuale. Pensato per device con limiti hardware, ma capace comunque di ragionare, rispondere e generare immagini. Un po’ come avere un assistente geniale in tasca, ma senza dover vendere un rene per il cloud.

Ma la vera novità — la scommessa che vale tutto — è l’abilitazione dei ChatGPT Tools: browsing web, generazione immagini, capacità avanzate di interpretazione multimediale. E questi strumenti sono disponibili subito per gli utenti Plus, Pro e Team nei modelli o3, o4-mini e o4-mini-high. Una promessa molto concreta per chi lavora tra documenti, report, immagini e dati in tempo reale. Il messaggio implicito? Non servono più mille software verticali, ti basta un’interfaccia che “vede”, “capisce” e “crea” per te.

Gli altri modelli — o1, o3-mini, o3-mini-high — iniziano invece a vedere la porta d’uscita. Segno che OpenAI sta accelerando il ciclo di obsolescenza: la nuova generazione non solo è più potente, ma più utile, più integrata, e — potenzialmente — più pericolosa se in mani sbagliate. Ma OpenAI qui gioca in anticipo: integrare strumenti, immagini e reasoning è anche un modo per creare ecosistemi chiusi, più controllabili, meno frammentati.

Questo annuncio arriva a pochi giorni dal lancio di GPT-4.1, il nuovo flagship che succede a GPT-4o. È chiaro che non si tratta solo di versioni migliorate, ma di una ridefinizione profonda del paradigma stesso di intelligenza artificiale. Un’intelligenza che ora vede, manipola, esplora, e — parrebbe — anche ragiona.

C’è un’evidente corsa tra modelli sempre più umani e utenti sempre più disarmati. Ma per ora, la direzione è tracciata: se l’AI diventa occhi, mente e mano, l’unico vero rischio è continuare a pensare che sia solo una tastiera molto veloce.