Sei quello che mangi
Recenti studi hanno messo in evidenza un fenomeno allarmante nel campo dell’intelligenza artificiale, in particolare riguardo ai modelli linguistici di grandi dimensioni (LLM). Questo articolo analizza il “collasso degli algoritmi”, un processo che porta a risultati sempre più uniformi e privi di originalità, minacciando l’efficacia e la creatività di tali sistemi.
Uno studio pubblicato su Nature 2024/7/25 ha mostrato che anche prima del collasso, l’apprendimento da testi generati dall’intelligenza artificiale porta i modelli a dimenticare le informazioni meno comuni nei loro dati, rendendo i loro output più omogenei.
La diffusione stabile ha rivoluzionato la creazione di immagini a partire da testi descrittivi. GPT-2, GPT-3.5 e GPT-4 hanno dimostrato elevate prestazioni in una varietà di compiti linguistici. ChatGPT ha introdotto questi modelli linguistici al pubblico. È ormai chiaro che l’intelligenza artificiale generativa, come i modelli di linguaggio di grandi dimensioni (LLM), è destinata a rimanere e cambierà sostanzialmente l’ecosistema dei testi e delle immagini online.
Consideriamo cosa potrebbe accadere a GPT-{n} una volta che gli LLM contribuiranno alla maggior parte dei testi disponibili online. Abbiamo scoperto che l’uso indiscriminato di contenuti generati dai modelli durante l’addestramento provoca difetti irreversibili nei modelli risultanti, in cui le code della distribuzione originale dei contenuti scompaiono. Ci riferiamo a questo effetto come “collasso del modello” e dimostriamo che può verificarsi sia negli LLM che nei variational autoencoders (VAE) e nei modelli di miscele gaussiane (GMM).
Il Fenomeno del Collasso degli Algoritmi
Il collasso degli algoritmi si puo’ descrivere come una tendenza degli LLM a convergere verso soluzioni banali durante il loro addestramento su enormi dataset. Questo porta a una perdita di diversità nei risultati generati, con i modelli che producono contenuti ripetitivi e privi di significato. Secondo l’autore, “Gli LLM diventano esperti nel prevedere la parola successiva in una sequenza, ma perdono la capacità di generare testi che si discostino significativamente dal training set.”
Implicazioni per l’Intelligenza Artificiale
Le implicazioni di questa scoperta sono significative per le applicazioni di IA generativa, come la scrittura automatica, la sintesi di immagini e la creazione di codice. Se non affrontato, il collasso degli algoritmi potrebbe limitare gravemente l’utilità pratica di questi sistemi, riducendo la loro capacità di produrre risultati creativi e innovativi. E’ ncessario sviluppare tecniche per prevenire o mitigare questo fenomeno, affermando che “rischiamo di avere modelli di IA sempre più sofisticati ma sempre meno in grado di produrre risultati significativi.”
Nuove Direzioni per la Ricerca sull’IA
Una soluzione potrebbe essere un cambio di paradigma nella ricerca sull’IA, spostando l’attenzione dalla mera accuratezza degli algoritmi alla loro stabilità e diversità. Un’altro approccio suggerirebbe la necessità di metriche più sofisticate per valutare la qualità dei risultati degli LLM, superando le tradizionali misure di perplessità.
Alcuni ricercatori hanno costruito un’intuizione teorica dietro questo fenomeno e ne abbiamo descritto l’ubiquità tra tutti i modelli generativi appresi. Dimostriamo che questo aspetto deve essere preso seriamente se vogliamo mantenere i benefici dell’addestramento su dati di grande scala raccolti dal web. Infatti, il valore dei dati raccolti riguardo alle interazioni umane genuine con i sistemi diventerà sempre più prezioso in presenza di contenuti generati da LLM nei dati estratti da Internet.