Amazon ha deciso di sfidare Nvidia nel mercato dei chip per l’intelligenza artificiale (AI) con una serie di mosse strategiche che mirano a ridurre la dipendenza dall’attuale leader di mercato e offrire alternative più economiche e performanti ai propri clienti cloud. Questa iniziativa si concretizza attraverso lo sviluppo di chip proprietari, la costruzione di supercomputer avanzati e investimenti significativi in startup AI.
AWS Trainium è il chip di machine learning sviluppato da Amazon, progettato specificamente per l’addestramento di modelli di deep learning con oltre 100 miliardi di parametri. Le istanze Amazon EC2 Trn1, basate su Trainium, offrono prestazioni elevate e una riduzione dei costi di addestramento fino al 50% rispetto ad altre istanze comparabili. Ogni acceleratore Trainium include due NeuronCore di seconda generazione, ottimizzati per algoritmi di deep learning, e dispone di 32 GB di memoria ad alta larghezza di banda, fornendo fino a 190 TFLOPS di potenza di calcolo FP16/BF16. Per supportare dati efficienti e parallelismo dei modelli, Trainium presenta NeuronLink, una tecnologia di interconnessione ad altissima velocità tra istanze. L’SDK AWS Neuron si integra nativamente con framework popolari come PyTorch e TensorFlow, facilitando l’adozione da parte degli sviluppatori.
Nel novembre 2024, Amazon ha annunciato Trainium 2, la seconda generazione del suo chip AI, progettato per offrire prestazioni fino a quattro volte superiori rispetto alla versione precedente. Le istanze Trn2 di Amazon EC2, basate su Trainium 2, sono create appositamente per l’IA generativa e sono le istanze EC2 più potenti per l’addestramento e l’implementazione di modelli con un numero di parametri che va da centinaia di miliardi fino a oltre un trilione. Le istanze Trn2 offrono un rapporto prezzo/prestazioni migliore del 30-40% rispetto all’attuale generazione di istanze EC2 P5e e P5en basate su GPU. Ogni istanza Trn2 ha 16 chip Trainium 2 collegati a NeuronLink e fornisce fino a 20,8 petaflop di elaborazione FP8, 1,5 TB di HBM3 con 46 TBps di larghezza di banda della memoria e 3,2 Tbps di rete EFA. Per l’inferenza, gli UltraServer consentono di fornire tempi di risposta leader del settore per creare le migliori esperienze in tempo reale. Per l’addestramento, gli UltraServer aumentano la velocità e l’efficienza dell’addestramento dei modelli, grazie a una comunicazione collettiva più rapida per il parallelismo dei modelli rispetto alle istanze autonome.
AWS ha annunciato lo sviluppo di un supercomputer denominato “Ultracluster” e di un nuovo server chiamato “Ultraserver”, entrambi alimentati dai chip Trainium. L’Ultracluster, situato negli Stati Uniti, sarà uno dei più grandi al mondo per l’addestramento di modelli AI e sarà utilizzato dalla startup Anthropic, in cui Amazon ha investito 4 miliardi di dollari. L’Ultraserver contiene 64 chip Trainium interconnessi. Questi annunci sottolineano l’impegno di Amazon nel creare un’alternativa valida alle GPU di Nvidia, puntando a ridurre i costi e aumentare il controllo sulla propria catena di approvvigionamento.
Amazon ha rafforzato il suo impegno nell’intelligenza artificiale con un ulteriore investimento di 4 miliardi di dollari nella startup Anthropic, portando il totale dell’investimento a 8 miliardi di dollari. Questa collaborazione designa AWS come partner cloud e di addestramento principale per Anthropic, un concorrente di OpenAI, creatore di ChatGPT. AWS mira a integrare i modelli AI di Anthropic nella sua piattaforma Bedrock, che supporta lo sviluppo di applicazioni di intelligenza artificiale generativa, e a sfruttare i suoi chip Trainium per l’addestramento di deep learning.
Amazon Web Services (AWS) ha deciso di giocare duro nel mercato dell’intelligenza artificiale, offrendo 110 milioni di dollari in potenza di calcolo gratuita ai ricercatori. L’obiettivo? Promuovere i suoi chip AI Trainium e sfidare il dominio di Nvidia, oltre a posizionarsi meglio rispetto ai concorrenti come AMD e Alphabet nel settore del cloud computing avanzato. Un’iniziativa che non è solo un’operazione di marketing, ma una mossa strategica per guadagnare terreno in un mercato dove la domanda di hardware AI cresce in modo esponenziale.
Ricercatori di istituzioni prestigiose come Carnegie Mellon e UC Berkeley stanno già testando il programma, con AWS che mette a disposizione 40.000 chip Trainium. Il punto cruciale di questa strategia, tuttavia, non è solo la potenza di calcolo gratuita, ma l’accesso alla documentazione dettagliata dell’architettura dei chip. A differenza di Nvidia, che vincola gli sviluppatori al suo ecosistema proprietario Cuda, AWS offre la possibilità di programmare direttamente il chip, una libertà che potrebbe attirare aziende e istituti di ricerca con progetti su larga scala.
Gadi Hutt, responsabile dello sviluppo commerciale per i chip AI di AWS, ha sottolineato che questa strategia è pensata per clienti con infrastrutture su vasta scala. Anche minime ottimizzazioni nel codice possono tradursi in risparmi significativi e miglioramenti delle prestazioni quando si gestiscono decine di migliaia di chip. In un contesto dove le aziende investono centinaia di milioni in infrastrutture di calcolo, ogni possibilità di ridurre i costi e aumentare l’efficienza diventa un’arma competitiva fondamentale.
Nonostante l’ingresso aggressivo di Amazon nel mercato dei chip AI, Nvidia mantiene una posizione dominante grazie alla sua piattaforma CUDA e alla diffusa adozione dei suoi chip nel settore. Tuttavia, l’iniziativa di Amazon potrebbe portare a una maggiore diversificazione delle opzioni disponibili per le aziende che cercano soluzioni AI più economiche e personalizzate. La competizione tra Amazon e Nvidia nel settore dei chip AI sta intensificandosi, con Amazon che punta su prezzi competitivi e investimenti infrastrutturali per guadagnare quote di mercato. Resta da vedere come Nvidia risponderà a queste mosse e quale impatto avranno sul panorama tecnologico futuro.