OpenThinker-32B: Quando l'Open Source Sbeffeggia i Giganti dell'IA

Nel panorama dell’intelligenza artificiale, spesso dominato da colossi con budget stratosferici, emerge una notizia che sa di beffa: un consorzio internazionale di ricercatori, riuniti sotto il nome di Open Thoughts, ha presentato OpenThinker-32B, un modello che non solo eguaglia, ma in alcuni casi supera, uno dei sistemi di IA più avanzati della Cina, DeepSeek.

Con un’accuratezza del 90,6% sul benchmark MATH500, OpenThinker-32B supera l’89,4% di DeepSeek. Nei compiti di problem-solving generale, ottiene un punteggio di 61,6 sul benchmark GPQA-Diamond, rispetto al 57,6 di DeepSeek. Tuttavia, va notato che DeepSeek mantiene un vantaggio nei benchmark AIME, che misurano la competenza matematica avanzata.

Per quanto riguarda le capacità di codifica, OpenThinker-32B registra un punteggio di 68,9, leggermente inferiore al 71,2 di DeepSeek. Ma, essendo un modello open source, questi risultati potrebbero migliorare significativamente grazie ai contributi della comunità.

La vera sorpresa? L’efficienza. OpenThinker ha raggiunto questi risultati con solo 114.000 esempi di addestramento, mentre DeepSeek ne ha utilizzati 800.000. Il dataset OpenThoughts-114k è arricchito con metadati dettagliati per ogni problema: soluzioni corrette, casi di test per problemi di codice, codice iniziale e informazioni specifiche del dominio. Un framework personalizzato, Curator, valida le soluzioni di codice, mentre un giudice IA gestisce la verifica matematica.

L’addestramento è stato completato in circa 90 ore utilizzando quattro nodi equipaggiati con otto GPU H100. Un dataset separato con 137.000 campioni non verificati, addestrato sul supercomputer Leonardo in Italia, ha consumato 11.520 ore di A100 in appena 30 ore.

Il modello si basa sul LLM Qwen2.5-32B-Instruct di Alibaba e supporta una finestra di contesto di 16.000 token, sufficiente per gestire prove matematiche complesse e problemi di codifica estesi, anche se inferiore agli standard attuali.

Questa notizia arriva in un momento di crescente competizione nelle capacità di ragionamento dell’IA. Rivista.AI ha dedicato degli approfondimenti. OpenAI ha annunciato che tutti i modelli successivi a GPT-5 avranno capacità di ragionamento. Elon Musk ha promosso le capacità avanzate di problem-solving di Grok-3 di xAI, promettendo che sarà il miglior modello di ragionamento fino ad oggi. Inoltre, Nous Research ha rilasciato un altro modello di ragionamento open source, DeepHermes, basato su Llama 3.1 di Meta.

Il campo ha guadagnato slancio dopo che DeepSeek ha dimostrato prestazioni comparabili a quelle di OpenAI o1 a costi significativamente ridotti. DeepSeek R1 è gratuito da scaricare, utilizzare e modificare, con le tecniche di addestramento rese pubbliche. Tuttavia, a differenza di Open Thoughts, che ha deciso di rendere tutto open source, il team di sviluppo di DeepSeek ha mantenuto privati i dati di addestramento.

Questa differenza chiave significa che gli sviluppatori potrebbero avere più facilità a comprendere OpenThinker e a riprodurre i suoi risultati da zero rispetto a DeepSeek, poiché hanno accesso a tutti i pezzi del puzzle.

Per la comunità IA più ampia, questo rilascio dimostra ancora una volta la fattibilità di costruire modelli competitivi senza dataset proprietari massicci. Inoltre, potrebbe essere un concorrente più affidabile per gli sviluppatori occidentali che sono ancora incerti sull’utilizzo di un modello cinese, open source o meno.

OpenThinker è disponibile per il download su HuggingFace. È disponibile anche un modello più piccolo e meno potente da 7 miliardi di parametri per dispositivi di fascia inferiore.

Il team di Open Thoughts ha riunito ricercatori di diverse università americane, tra cui Stanford, Berkeley e UCLA, insieme al Centro di Supercalcolo Juelich in Germania. Il Toyota Research Institute con sede negli Stati Uniti e altri attori della scena IA dell’UE lo supportano.

OpenThinker è disponibile su HuggingFace . Il modello di parametro 7B più piccolo e meno potente è disponibile anche per dispositivi di fascia bassa.

Ci auguriamo lo stesso supporto alle aziende Italiane!!

Intelligenza Artificiale, Innovazione e Trasformazione Digitale

OpenThinker-32B: Quando l’Open Source Sbeffeggia i Giganti dell’IA

OpenThinker-32B: Quando l’Open Source Sbeffeggia i Giganti dell’IA

Costruire Modelli Linguistici di Grandi Dimensioni (LLMs) Privati: Private AI

La necessità dei GPT Multi-Prompt