Uno studio pubblicato su Nature all’inizio di quest’anno ha sollevato un allarme sul potenziale futuro dell’intelligenza artificiale (AI). I ricercatori hanno avvertito che l’addestramento di modelli AI su dati sintetici, cioè generati da sistemi AI stessi piuttosto che da esseri umani, potrebbe portare a un fenomeno noto come “collasso del modello”. Questo processo ricorsivo, secondo gli autori, porterebbe i modelli a peggiorare progressivamente, poiché vengono continuamente addestrati su dati di qualità sempre più bassa, generati da iterazioni precedenti.

L’Origine del Panico: Dati Rari e Allucinazioni Sintetiche

Secondo lo studio, i dati sintetici tendono a escludere casi rari e poco comuni, riducendo la varietà della distribuzione dei dati. Questo porta a un deterioramento della performance dei modelli, soprattutto quando i dati generati contengono allucinazioni o errori. Zak Shumaylov, uno degli autori, ha dichiarato che un uso iterativo di tali dati sintetici può trasformare i modelli in strumenti inutilizzabili.

Questa conclusione ha alimentato timori nel settore AI, spingendo molti a considerare il ricorso ai dati sintetici come un errore strategico. Tuttavia, un’analisi più approfondita, soprattutto da parte delle aziende tecnologiche, racconta una storia molto diversa.

L’Applicazione Reale: Sintetico e Curato

Lo scenario sperimentale delineato nello studio di Nature presenta limiti significativi. Gli autori hanno testato il “collasso del modello” addestrando iterativamente modelli esclusivamente su dati sintetici, ignorando del tutto i dati umani originari e senza verificare la qualità dei dati generati.

Nella realtà operativa delle grandi aziende AI, il quadro è molto più complesso e sofisticato. Modelli avanzati come Llama 3.1 di Meta utilizzano i dati sintetici in modo strategico per colmare lacune difficili o costose da coprire con dati generati da esseri umani. Tra questi troviamo esempi in contesti multilingue, casi rari o scenari che richiedono ragionamenti a lungo contesto. In altre parole, i dati sintetici non sostituiscono i dati umani, ma li integrano.

Le aziende seguono poi un processo rigoroso di verifica e curatela dei dati sintetici prima di utilizzarli nell’addestramento. Attraverso test automatizzati (soprattutto per attività verificabili come il coding o la matematica) o revisioni umane, i dati vengono filtrati per assicurare elevati standard di qualità. Questo approccio, benché più laborioso, è molto più efficiente rispetto alla creazione ex-novo di grandi quantità di dati umani.

Successi Pratici: Un Futuro Promettente

I risultati di questi approcci parlano da soli. Ricercatori della Stanford University, ad esempio, hanno fine-tunato il modello LLaMA 7B di Meta utilizzando 52.000 esempi sintetici generati da GPT-3.5. Il risultato? Prestazioni comparabili a GPT-3.5, ma con un costo inferiore a 600 dollari.

Anche nel settore industriale, l’uso dei dati sintetici è ormai consolidato. OpenAI sta utilizzando il suo modello o1 per generare dati sintetici destinati all’addestramento del sospetto GPT-5. Allo stesso modo, aziende come Google e Meta stanno incorporando dati sintetici nei loro modelli, dimostrando che l’uso di questi dati, se ben orchestrato, rappresenta una risorsa strategica e scalabile.

Oltre la Soglia del Collasso

Ciò non significa che le preoccupazioni sul collasso del modello siano infondate. La crescente presenza di contenuti generati da AI nei dati raccolti online potrebbe rappresentare un rischio. Tuttavia, tecniche di filtraggio dei contenuti, già utilizzate per eliminare spam e dati di bassa qualità, sono un possibile rimedio. Il vero nodo irrisolto è se i dati sintetici possano mai sostituire completamente i dati umani.

Un punto critico è il cosiddetto “data cliff”, cioè il momento in cui l’AI potrebbe esaurire nuovi dati di alta qualità su cui addestrarsi, previsto intorno al 2028 o più probabilmente negli anni 2030. Se e quando si raggiungerà questa soglia, non è chiaro se i dati sintetici saranno sufficienti per continuare a scalare le capacità dei modelli AI.

Yunzhen Feng, dottorando alla NYU, ha sottolineato come i dati umani potrebbero contenere elementi unici e non replicabili che contribuiscono alle straordinarie performance raggiunte dai modelli AI. Sebbene l’uso dei dati sintetici migliori i modelli, i benefici potrebbero diminuire nel tempo rispetto ai dati umani.

Una Nuova Frontiera dell’Addestramento

Nonostante le incognite, l’evidenza attuale suggerisce che i dati sintetici, quando combinati con una rigorosa verifica, non rappresentano una minaccia intrinseca ai modelli AI. Piuttosto, sono uno strumento potente che consente di superare limiti tradizionali.

La vera domanda non è più se utilizzare dati sintetici, ma quanto possiamo affidarci ad essi su scala crescente.