OpenAI ha concluso l’anno con una dimostrazione impressionante delle sue capacità, presentando o3, un nuovo modello di ragionamento che ha mostrato prestazioni eccezionali su benchmark complessi. Sebbene non sia ancora disponibile pubblicamente, il modello è già stato valutato da tester di sicurezza, che hanno avuto l’opportunità di analizzarne il potenziale.
Tra i risultati più sorprendenti, spicca il punteggio di o3 sul test semi-privato ARC-AGI, dove ha ottenuto un impressionante 75,7% (87,5% con una configurazione ad alta potenza di calcolo), superando di gran lunga le prestazioni del suo predecessore, o1. Inoltre, o3 ha raggiunto il 25% sul benchmark estremamente difficile FrontierMath — un balzo notevole rispetto al misero 2% ottenuto dai modelli precedenti solo a novembre. Questi risultati hanno indubbiamente suscitato molta attenzione, ma è importante considerare una nota di cautela.