OpenAI ha concluso l’anno con una dimostrazione impressionante delle sue capacità, presentando o3, un nuovo modello di ragionamento che ha mostrato prestazioni eccezionali su benchmark complessi. Sebbene non sia ancora disponibile pubblicamente, il modello è già stato valutato da tester di sicurezza, che hanno avuto l’opportunità di analizzarne il potenziale.

Tra i risultati più sorprendenti, spicca il punteggio di o3 sul test semi-privato ARC-AGI, dove ha ottenuto un impressionante 75,7% (87,5% con una configurazione ad alta potenza di calcolo), superando di gran lunga le prestazioni del suo predecessore, o1. Inoltre, o3 ha raggiunto il 25% sul benchmark estremamente difficile FrontierMath — un balzo notevole rispetto al misero 2% ottenuto dai modelli precedenti solo a novembre. Questi risultati hanno indubbiamente suscitato molta attenzione, ma è importante considerare una nota di cautela.

Sebbene questi progressi siano certamente impressionanti e dimostrino il potenziale dei modelli linguistici di grandi dimensioni in compiti di ragionamento, è essenziale non cedere troppo all’entusiasmo. Non siamo ancora di fronte a un’intelligenza artificiale generale (AGI), nonostante alcune voci possano suggerire il contrario. I benchmark sono difficili, ma non tanto quanto potrebbero sembrare. La performance di o3 su FrontierMath, pur straordinaria, non deve farci dimenticare che il cammino verso l’AGI è ancora lungo e complesso.

Tuttavia, ciò che emerge chiaramente da questi risultati è che il progresso nell’IA non sta certo rallentando. La rapidità con cui o3 ha raggiunto questi traguardi ha sorpreso molti, soprattutto in un ambito come FrontierMath, dove le prestazioni sono state talmente straordinarie da spingere Epoch a creare un nuovo benchmark.

In sintesi, il progresso dell’intelligenza artificiale è vivo e vegeto. Se c’è una lezione da trarre, è che non stiamo raggiungendo un muro, ma piuttosto stiamo assistendo a una continua evoluzione che, pur non portandoci ancora all’AGI, sta raggiungendo traguardi che solo pochi anni fa sembravano irraggiungibili.

Se avete tempo leggete un bella Analisi da qui: Zvi Mowshowitz