L’Allen Institute for AI (Ai2) ha recentemente introdotto OLMo 2, una famiglia di modelli linguistici open-source che rappresenta un significativo passo avanti nel campo dell’intelligenza artificiale. Questi modelli, con 7 e 13 miliardi di parametri, sono stati addestrati su un massimo di 5 trilioni di token, offrendo prestazioni competitive rispetto ad altri modelli open-weight come Llama 3.1 e Qwen 2.5.
OLMo 2 si distingue per la sua trasparenza e apertura. Tutti gli aspetti del modello, inclusi i pesi, i dati di addestramento, il codice sorgente e le valutazioni, sono completamente accessibili al pubblico. Questo approccio aperto consente alla comunità di ricercatori e sviluppatori di esaminare, replicare e costruire su queste basi, promuovendo l’innovazione e la collaborazione nel campo dell’IA.
Le architetture di OLMo 2 sono state migliorate rispetto alle versioni precedenti. L’introduzione di RMSNorm al posto della tradizionale layer norm, l’applicazione della normalizzazione alle query e alle chiavi di attenzione e l’adozione delle embedding posizionali rotatorie (RoPE) sono alcune delle modifiche chiave che hanno contribuito a una maggiore stabilità durante l’addestramento e a una migliore efficienza per token.
Il processo di addestramento di OLMo 2 è stato suddiviso in due fasi principali. Nella prima fase, che ha coperto oltre il 90% del budget totale di pre-addestramento, è stato utilizzato l’OLMo-Mix-1124, una raccolta di circa 3,9 trilioni di token provenienti da diverse fonti. Nella seconda fase, è stata curata una miscela di dati web di alta qualità e contenuti specifici di dominio, come materiale accademico e forum di domande e risposte, per affinare ulteriormente le capacità del modello.
Le valutazioni hanno mostrato che OLMo 2 eccelle sia in benchmark di sviluppo noti, come ARC Challenge e HellaSwag, sia in metriche di valutazione non viste precedentemente, come AGIEval e GSM8k. In particolare, OLMo-2-7B e OLMo-2-13B hanno dimostrato un’efficienza notevole rispetto al numero totale di operazioni di addestramento, superando modelli più grandi in termini di prestazioni.
Un aspetto distintivo di OLMo 2 è la sua licenza Apache 2.0, che ne consente l’uso commerciale. Questo lo rende una scelta attraente per le aziende che cercano soluzioni IA potenti e trasparenti, promuovendo al contempo l’adozione e l’innovazione nel settore.