Il Beijing Academy of Artificial Intelligence (BAAI) ha introdotto AquilaMoE, un avanzato modello linguistico basato su una struttura Mixture of Experts (MoE) da 8*16B, progettato per ottenere prestazioni elevate con un’efficienza senza precedenti. Il cuore della sua innovazione è EfficientScale, una metodologia di addestramento a due fasi che massimizza il trasferimento di conoscenza riducendo il fabbisogno di dati e calcolo.

L’approccio Scale-Up permette di inizializzare un modello più grande a partire dai pesi di uno più piccolo, ottimizzando l’uso dei dati e accelerando l’apprendimento. Successivamente, la fase Scale-Out trasforma un modello denso in un modello MoE, migliorando ulteriormente l’efficienza computazionale e la capacità del modello. Queste strategie consentono ad AquilaMoE di superare le limitazioni degli attuali modelli di linguaggio, offrendo prestazioni superiori con minori costi computazionali.

Dataset Bilingue e Architettura del Modello

AquilaMoE è stato addestrato su un dataset bilingue da 4TB di token in cinese e inglese, composto da pagine web, articoli accademici, enciclopedie, libri, codice sorgente e domande-risposte. Questo dataset è stato filtrato per mantenere solo contenuti di alta qualità, con particolare attenzione alla rimozione di contenuti tossici e ridondanti.

La famiglia di modelli Aquila include versioni dense e MoE, con configurazioni che vanno da 7B a 16B parametri per i modelli densi e fino a 8x16B parametri per la versione MoE. Ogni modello supporta una lunghezza del contesto di 4096 token e utilizza strutture avanzate come Group Query Attention (GQA) per migliorare l’efficienza della memoria.

ModelloAquila3 7BAquila3 16BAquila3 8x16B
Context Length409640964096
Hidden Dim409651205120
Trained Tokens3.6T1.2T545B
Batch Size12M12M24M

Addestramento con EfficientScale: Un Processo in Tre Fasi

L’addestramento di AquilaMoE si basa su EfficientScale, che sfrutta un approccio progressivo per il trasferimento di conoscenza.

  1. Fase di Preparazione
    • Viene addestrato un modello denso di piccole dimensioni per acquisire una solida base di conoscenza.
    • I dati vengono puliti, filtrati e validati per garantire la massima qualità durante le fasi successive.
  2. Scale-Up: Espansione del Modello
    • Il modello più piccolo viene utilizzato per inizializzare un modello più grande, utilizzando strategie avanzate di trasferimento dei pesi come:
      • Function Preserving Initialization (FPI) per mantenere l’output invariato durante l’espansione.
      • Advanced Knowledge Initialization (AKI) per migliorare la stabilità del trasferimento di conoscenza.
      • AKI-Pro, un’evoluzione di AKI che introduce interpolazione e compatibilità con GQA.
  3. Scale-Out: Conversione in MoE
    • Il modello denso viene trasformato in un MoE, sostituendo i livelli MLP con livelli esperti sparsi.
    • Durante inferenza e addestramento, vengono attivati solo 2 esperti su 8 per token, garantendo un equilibrio tra efficienza e capacità.
    • Meccanismi come load balancing loss e max z-loss evitano il collasso dell’addestramento e garantiscono una distribuzione ottimale dei token tra gli esperti.

Grazie a queste strategie, il modello mantiene le conoscenze trasferite, migliorando costantemente le prestazioni senza richiedere una quantità sproporzionata di nuovi dati.

Efficienza e Prestazioni

L’analisi della training loss mostra come AquilaMoE mantenga una curva di apprendimento progressivamente più efficiente rispetto ai modelli densi.

  • Transizioni rapide tra le fasi: il passaggio da un modello all’altro avviene senza aumenti significativi di perdita di addestramento.
  • Miglioramento dell’efficienza: ogni fase riduce la perdita in modo più rapido rispetto alla precedente, confermando l’efficacia dell’approccio EfficientScale.

Sul fronte delle prestazioni, AquilaMoE supera significativamente i modelli dense su benchmark chiave come GSM8K, MMLU, HumanEval e HellaSwag.

ModelloARC-c-pplGSM8KMMLUHumanEvalMath
AquilaDense-7B37.637.8146.4714.021.32
AquilaDense-16B38.3128.5157.1129.884.24
AquilaMoE43.0554.5161.0015.8510.4
AquilaMoE-SFT49.1571.2759.9340.24

La versione AquilaMoE-SFT, una variante fine-tunata, migliora ulteriormente le prestazioni e supera persino GPT-3.5 Turbo su AlpacaEval 2.0.

ModelloGPT-3.5 Turbo (11/06)GPT-3.5 Turbo (03/01)AquilaMoE-SFT
AlpacaEval 2.019.318.121.1

Licenza e Considerazioni

AquilaMoE è rilasciato sotto licenza Apache 2.0, garantendo un’ampia accessibilità per la ricerca e lo sviluppo. Tuttavia, il modello non implementa attualmente meccanismi di moderazione, e BAAI invita la community a contribuire all’ottimizzazione delle politiche di sicurezza per una distribuzione responsabile.

Con un’architettura scalabile, un approccio di addestramento efficiente e prestazioni all’avanguardia, AquilaMoE rappresenta un passo avanti significativo nel campo dei modelli linguistici basati su MoE, riducendo il costo computazionale senza compromettere la qualità del modello.

Contact Us