Non ci sono modelli più potenti della nuova serie o3, almeno secondo OpenAI. Ma, si sa, loro sono di parte. Dicono che questi nuovi modelli siano così brillanti da fare impallidire anche un campione di scacchi in un giorno di pioggia. O almeno così affermano le loro presentazioni in power point.
Prendiamo il famoso benchmark ARC-AGI. Chiunque lo guardi pensa subito a un test per selezionare astronauti o risolvere indovinelli della Settimana Enigmistica. Invece, sembra misurare quanto un’IA sia capace di pensare come un umano. E o3 non solo supera il test, ma si avvicina alle prestazioni umane con un 87,5%. Certo, non significa che l’IA sappia cucinare un arrosto senza bruciarlo, ma almeno potrebbe dirti con precisione quante calorie contiene dopo il disastro.