Gli scienziati sono piuttosto impressionati da o1, secondo Nature

Secondo un articolo apparso su Nature, il nuovo chatbot sviluppato da OpenAI, denominato o1, sta facendo scalpore nel mondo scientifico per le sue straordinarie capacità nel risolvere problemi complessi di scienza, spesso superando anche ricercatori di alto livello. Nonostante alcune preoccupazioni, come la possibilità di “allucinazioni” più frequenti rispetto ai modelli precedenti, gli esperti sono impressionati dalle sue prestazioni.

Un’Innovazione per la Scienza

Mario Krenn, a capo del laboratorio Artificial Scientist Lab presso il Max Planck Institute for the Science of Light in Germania, è stato uno dei primi scienziati a testare il modello o1. Secondo Krenn, questo chatbot ha fatto un grande balzo in avanti rispetto ai suoi predecessori, in particolare nel campo della fisica quantistica, dove offre risposte più dettagliate e coerenti. Krenn è stato tra i membri del team di test, noto come “red team”, che ha valutato le capacità del chatbot, verificando anche eventuali problematiche di sicurezza.

Dal lancio pubblico di ChatGPT nel 2022, i modelli di linguaggio di grandi dimensioni (LLM) sono diventati sempre più potenti, con una crescita delle loro capacità in test standardizzati. OpenAI, con la serie o1, ha adottato un nuovo approccio: il modello è stato addestrato in modo più intenso e riflette più a lungo sulle risposte, risultando più lento ma più accurato, soprattutto nelle aree dove vi sono risposte giuste o sbagliate chiaramente definite. Il modello o1, come dichiarato dall’azienda, è particolarmente abile nel risolvere problemi complessi in scienza, codifica e matematica.

Superando i Dottorandi

Andrew White, chimico presso FutureHouse a San Francisco, ha espresso la sua sorpresa riguardo alla mancanza di miglioramenti significativi nei chatbot precedenti per supportare la ricerca scientifica. Tuttavia, afferma che il modello o1 rappresenta una vera svolta. Questo nuovo chatbot ha superato, per la prima volta, i dottorandi in un test particolarmente difficile chiamato Graduate-Level Google-Proof Q&A Benchmark (GPQA). Nella parte più complessa del test, nota come “diamond set”, o1 ha ottenuto un punteggio del 78%, con un impressionante 93% in fisica, superando così di gran lunga i suoi predecessori.

Anche nei test di matematica, il modello o1 si è distinto. In un esame di qualificazione per l’Olimpiade Internazionale di Matematica, o1 ha risolto correttamente l’83% dei problemi, mentre il suo predecessore GPT-4o aveva raggiunto solo il 13%.

La Logica a Catena di Pensieri

Uno dei segreti del successo di o1 è la sua capacità di applicare una “catena di pensieri” per risolvere i problemi. Questo significa che il chatbot si auto-corregge e raffina il suo ragionamento mentre elabora una risposta. Tuttavia, OpenAI ha scelto di non rendere visibile all’utente questa catena di pensieri, fornendo invece un riassunto logico, in parte per evitare che vengano mostrati errori o pensieri inappropriati, e in parte per proteggere i segreti aziendali.

Nonostante queste capacità avanzate, ci sono anche dei compromessi. OpenAI ha ricevuto feedback che indicano come o1 tenda a “allucinare” più frequentemente rispetto ai modelli precedenti, cioè a fornire risposte errate o inventate. Tuttavia, i test interni all’azienda indicano che il tasso di allucinazioni di o1 sarebbe leggermente inferiore rispetto ai suoi predecessori. Un altro problema rilevato riguarda la sicurezza: durante i test, sono emersi casi in cui il modello non ha evidenziato correttamente i rischi legati a esperimenti pericolosi, come esplosioni o uso inappropriato di sostanze chimiche.

Strumenti per la Scienza

Nonostante queste problematiche, gli scienziati che hanno testato o1 sono convinti che possa accelerare la ricerca scientifica. Krenn, per esempio, ha utilizzato o1 in combinazione con uno strumento che ha sviluppato chiamato SciMuse, che scansiona la letteratura scientifica per suggerire nuove idee di ricerca. A suo dire, o1 offre idee molto più interessanti rispetto ai modelli precedenti.

Anche Kyle Kabasares, scienziato dei dati presso il Bay Area Environmental Research Institute, ha sperimentato il modello o1 replicando il codice di un progetto del suo dottorato. Il chatbot è riuscito in un’ora a risolvere un problema che lui aveva impiegato mesi a risolvere, lasciandolo “senza parole”.

Catherine Brownstein, genetista presso il Boston Children’s Hospital, ha testato o1 per applicazioni legate alla diagnosi di malattie rare. Brownstein ha sottolineato come o1 sia più accurato e offra opzioni che non aveva mai considerato possibili per un chatbot.

Il modello o1 rappresenta un passo avanti nella capacità dell’intelligenza artificiale di supportare la ricerca scientifica. Tuttavia, il suo utilizzo è ancora limitato da alcune problematiche, come la possibilità di generare risposte errate e la necessità di un controllo umano attento, specialmente in ambiti ad alto rischio. Nonostante ciò, scienziati come Krenn e Kabasares vedono in o1 un potente strumento per accelerare i progressi in vari campi scientifici, dalla fisica alla biologia, offrendo soluzioni e idee innovative che prima non erano possibili.

La tecnologia AI continua a evolversi rapidamente, e il modello o1 segna una nuova era in cui i chatbot non sono solo assistenti, ma veri e propri strumenti di ricerca capaci di battere anche gli esperti in determinate situazioni. Tuttavia, come sottolinea White, è necessario un approccio cauto: o1 è uno strumento potente, ma non perfetto, e richiede ancora la supervisione e la competenza di ricercatori umani per evitare potenziali rischi e per sfruttarne al meglio le potenzialità.

Gli scienziati sono piuttosto impressionati da o1, secondo Nature

Un’Innovazione per la Scienza

Superando i Dottorandi

La Logica a Catena di Pensieri

Strumenti per la Scienza

Nvidia Rilascia NVLM 1.0: Modelli AI Open Source che Rivalizzano con GPT-4o

La Prospettiva di Anne Bouverot sul Futuro dell’IA