Meta sta finalizzando la configurazione di un enorme cluster di addestramento AI composto da oltre 100.000 GPU Nvidia H100, come riportato da The Information.
Questo cluster, che si prevede addestrerà il prossimo modello di linguaggio di grandi dimensioni Llama 4 di Meta, rappresenta un investimento significativo, con le GPU stimate a un valore di circa 2 miliardi di dollari.
La spesa totale per il cluster è stimata attorno ai 2,5 miliardi di dollari, con circa il 10% di tale importo probabilmente destinato all’infrastruttura, suggerendo un’opportunità di fatturato di 250 milioni di dollari per Arista Networks, che si prevede fornirà parte dell’infrastruttura di rete necessaria a causa delle limitazioni della tecnologia InfiniBand per configurazioni di tale grandezza.
La decisione di utilizzare Ethernet per la rete deriva dalla scala del cluster, che richiede soluzioni di connettività robuste.
L’analista di Evercore Amit Daryanani ha osservato che Meta in precedenza aveva utilizzato gli switch di Arista per un cluster più piccolo di 24.000 GPU, indicando una forte probabilità di continua collaborazione per questo progetto più grande.
Questa iniziativa si allinea con una tendenza più ampia nell’industria dell’AI, dove aziende come Meta e xAI, fondata da Elon Musk, stanno correndo per costruire ampi cluster di GPU per migliorare le loro capacità AI. La xAI di Musk ha recentemente lanciato un cluster concorrente chiamato Colossus, composto anch’esso da 100.000 GPU H100, che Musk afferma essere il sistema di addestramento AI più potente mai realizzato.