Secondo una ricerca condotta da Microsoft, circa l’88% delle lingue parlate nel mondo, che coinvolgono 1,2 miliardi di persone, non ha accesso ai Large Language Models (LLM). Perchè sono costruiti principalmente utilizzando dati in lingua inglese e per utenti di madrelingua inglese: “di conseguenza, la distinzione tra chi ha e chi non ha è diventata piuttosto netta“. La soluzione a questo problema risiede nell’implementazione di LLM multilingue, che possano essere allenati in diverse lingue e utilizzati per compiti in diverse lingue.
Il gruppo di ricerca Sapienza NLP (Natural Language Processing), guidato da Roberto Navigli, professore ordinario presso il Dipartimento di Ingegneria Informatica, Automatica e Gestionale “Antonio Ruberti” della Sapienza Università di Roma, annuncia oggi il rilascio dei modelli Minerva, una nuova famiglia di modelli linguistici su larga scala (Large Language Model, LLM) addestrati “da zero” per la lingua italiana.
Minerva è la prima famiglia di LLM italiano-inglese veramente aperti (dati e modello) preformati da zero, un modello da 350 milioni di parametri addestrato su 70 miliardi di token (35 miliardi in italiano, 35 miliardi in inglese), sviluppata da Sapienza NLP in collaborazione con Future Artificial Intelligence Research (FAIR) e CINECA . In particolare, circa la metà dei dati pre-formazione include testo in italiano.
Questo lavoro è stato finanziato dal progetto PNRR MUR PE0000013-FAIR . Riconosciamo il premio CINECA “IscB_medit” nell’ambito dell’iniziativa ISCRA, per la disponibilità di risorse e supporto informatico ad alte prestazioni.
“La caratteristica distintiva dei modelli Minerva è il fatto di essere stati costruiti e addestrati da zero usando testi ad accesso aperto, al contrario dei modelli italiani esistenti ad oggi, che sono basati sull’adattamento di modelli come LLaMA e Mistral, i cui dati di addestramento sono tuttora sconosciuti”
“Nello specifico, ogni modello Minerva è stato addestrato su un vasto insieme di fonti italiane e inglesi online e documentate, per un totale di oltre 500 miliardi di parole, l’equivalente di oltre 5 milioni di romanzi”.
“Non solo la trasparenza nell’addestramento dei modelli rafforza la fiducia degli utenti, della comunità scientifica, degli enti pubblici e dell’industria, ma stimola anche continui miglioramenti ed è un primo passo verso processi di verifica rigorosi per garantire la conformità a leggi e regolamenti”.
Roberto Navigli.
Il team di PNL della Sapienza
- Riccardo Orlando: preelaborazione dei dati, training del modello
- Pere-Lluis Huguet Cabot: preelaborazione dei dati, vocabolario, valutazione
- Luca Moroni: data curation, analisi dei dati, compiti downstream, valutazione
- Simone Conia: data curation, valutazione, supervisione del progetto
- Edoardo Barba: preelaborazione dati, attività downstream, supervisione del progetto
- Roberto Navigli: coordinatore del progetto