Il Costo dell’Addestramento: Un Investimento Molto Maggiore
Secondo Philipp Schmid Technical Lead & LLMs aHugging Face, DeepSeek R1 è emerso come un attore di rilievo nel panorama dell’intelligenza artificiale e del machine learning, suscitando molta attenzione sia nelle comunità tecnologiche che scientifiche.
Tuttavia, tra l’entusiasmo crescente, sono circolate numerose informazioni errate che hanno generato confusione, portando molti a credere a false affermazioni. Analizziamo i fatti e facciamo chiarezza su alcuni dei punti chiave errati che circolano riguardo a DeepSeek R1, le sue capacità e la sua storia.Una delle affermazioni più fuorvianti riguarda il presunto basso costo dell’addestramento del modello DeepSeek R1.
Alcuni rapporti hanno suggerito che l’addestramento sarebbe costato solo circa 6 milioni di dollari. Questa cifra è ben lontana dalla realtà.
In effetti, la potenza di calcolo necessaria per il modello base (senza reinforcement learning o altri aggiustamenti) ha avuto un costo di circa 5,5 milioni di dollari in ore GPU.
Questa cifra non comprende altre componenti cruciali, come le ablation, i piccoli esperimenti, la generazione dei dati e altre fasi dell’intero processo di addestramento di DeepSeek R1.
L’affermazione che l’addestramento sia costato solo 6 milioni è quindi una semplificazione eccessiva che non tiene conto della complessità e delle risorse coinvolte nella costruzione di un modello così avanzato.
DeepSeek R1: Non È Solo un Progetto Collaterale
Un altro fraintendimento comune è che DeepSeek R1 sia solo un progetto collaterale. Sebbene possa essere iniziato come tale, la realtà è ben diversa. DeepSeek è infatti sostenuto da High-Flyer, un hedge fund cinese che gestisce asset superiori ai 7 miliardi di dollari.
Il fondo vanta un team altamente qualificato, che include medagliati olimpici in matematica, fisica e informatica. La struttura e le risorse dietro DeepSeek R1 sono di portata ben più grande rispetto a quanto alcuni possano immaginare, rendendo l’idea di un “piccolo progetto” completamente errata.
Non Sono Solo Pochi GPU: DeepSeek Conta su una Potenza Enorme
Contrariamente a quanto riportato in alcune voci, DeepSeek non possiede solo una manciata di GPU. L’infrastruttura di DeepSeek è vastissima e comprende circa 50.000 GPU. Questa capacità di calcolo è necessaria per gestire un modello di intelligenza artificiale così potente e complesso, e non è un dettaglio da sottovalutare quando si parla delle risorse tecnologiche che DeepSeek ha a disposizione.
La Verità sul Modello R1 da 671B
Una delle caratteristiche più straordinarie di DeepSeek R1 è il suo modello da 671 miliardi di parametri, che si basa su un’architettura Mixture of Experts (MoE). Questo modello richiede oltre 16x 80GB di memoria GPU (ovvero 16x H100) per essere eseguito correttamente, una potenza di calcolo che pochi altri modelli al mondo possono vantare. Sebbene ci siano versioni distillate più piccole, la vera potenza di DeepSeek R1 risiede nel suo modello da 671B, che è ben lontano dalle versioni più piccole che circolano sul mercato.
Le Versioni Distillate: Non Sono “R1”
Va fatto un distinguo importante: esistono sei versioni distillate di DeepSeek R1, che sono basate su modelli come Qwen e Llama, fine-tuned su circa 800.000 campioni, ma senza alcuna componente di reinforcement learning. Q
ueste versioni distillate non devono essere confuse con il vero modello R1. La versione più piccola, con 1,5 miliardi di parametri, può essere eseguita localmente, ma non è nemmeno lontanamente paragonabile al modello completo da 671 miliardi di DeepSeek R1. È importante essere chiari su questa distinzione, poiché spesso si tende a fare confusione tra le diverse versioni.
I Dati e la Versione Ospitata
Infine, va sottolineato che la versione ospitata su chat.deepseek.com potrebbe utilizzare i dati degli utenti per addestrare nuovi modelli, come indicato nei termini di servizio. Questo è un aspetto che è bene tenere a mente quando si interagisce con il sistema, soprattutto per chi ha preoccupazioni sulla privacy e sull’uso dei propri dati.
Open Science: Un Beneficio per Tutti
Nonostante le controversie e le false informazioni che circolano, è innegabile che DeepSeek stia portando avanti importanti lavori nell’ambito della scienza aperta e dell’open source.
Da oltre due anni, l’azienda si sta impegnando per rendere la ricerca accessibile a tutti, e Hugging Face sta lavorando su una pipeline di riproduzione completamente aperta per favorire la trasparenza e la collaborazione nell’ecosistema scientifico e tecnologico.
L’open science e la disponibilità di modelli open source sono sicuramente un passo positivo per il progresso collettivo, che beneficerà tutti nel lungo termine.
E’ fondamentale fare attenzione alle notizie errate che girano su DeepSeek R1, separando le realtà concrete dalle speculazioni. Le risorse, l’infrastruttura e l’approccio di DeepSeek sono molto più robusti di quanto alcune voci possano far pensare.
Newsletter – Non perderti le ultime novità sul mondo dell’Intelligenza Artificiale: iscriviti alla nostra newsletter gratuita e accedi ai contenuti esclusivi di Rivista.AI direttamente nella tua casella di posta!