E così, dopo anni passati a divorare il web come un all-you-can-eat di dati gratuiti, l’intelligenza artificiale si trova di fronte a un problema esistenziale: cosa succede quando il buffet finisce? A quanto pare, la scorpacciata di contenuti liberamente accessibili sta per terminare, e ora le AI rischiano di rimanere a digiuno o, peggio ancora, di doversi nutrire dei propri rigurgiti.
Il campanello d’allarme è arrivato con il caso DeepSeek, un modello AI cinese che sembra ripetere le stesse risposte di ChatGPT come uno studente impreparato che copia dal compagno di banco. Secondo un’indagine di Copyleaks, il sospetto è che sia stato addestrato su output di OpenAI, il che significa che l’industria sta iniziando a masticare e risputare i propri contenuti. Un po’ come un ristorante che serve piatti riciclati dal giorno prima.
A mettere il timbro ufficiale su questa crisi è stato Sundar Pichai, CEO di Google, che al Dealbook Summit del New York Times ha sentenziato: “Abbiamo spremuto il web come un limone e il progresso d’ora in poi sarà più difficile.” Traduzione: abbiamo finito i dati gratis, ora o si paga o ci si arrangia.
Ma niente paura! La soluzione c’è, ed è ovviamente artificiale: i dati sintetici. Per chi non lo sapesse, i dati sintetici sono come la carne coltivata in laboratorio: sembrano veri, hanno lo stesso aspetto, ma sotto sotto non hanno mai visto la luce del sole. Generati direttamente da AI per alimentare altre AI, questi dati sono il nuovo oro del settore.
“Se hai pochi dati e non vuoi pagarli, te li inventi basandoti su quelli che hai già.” Un po’ come fare una fotocopia di una fotocopia finché il testo diventa illeggibile, ma con il vantaggio che nessuno ti denuncia per copyright.
Naturalmente, il metodo ha qualche effetto collaterale. Ad esempio, i dati sintetici possono contenere gli stessi pregiudizi dei dati reali, solo moltiplicati per dieci. Ma chi se ne importa? Il punto è evitare rogne legali e continuare a far girare il motore dell’innovazione.
Il vero problema, però, è che se l’AI continua a mangiare i propri scarti, a un certo punto potrebbe iniziare a perdere il contatto con la realtà. Immaginate un mondo in cui tutti gli articoli vengono scritti da AI che leggono altri articoli generati da AI. Dopo qualche ciclo di questo gioco al massacro, l’informazione diventa una gigantesca bolla autoreferenziale, dove nessuno sa più distinguere cosa è vero da cosa è stato generato per convenienza.
E se qualcuno volesse approfittare della situazione? Facile. i dati sintetici possono essere usati per insegnare alle AI a ignorare certi schemi di frode. In pratica, potremmo arrivare a un futuro in cui i truffatori addestrano i modelli AI per non riconoscerli. Geniale, vero? Vera aiutaci tu!!
La soluzione proposta da alcuni esperti è la solita: blockchain. Sistemi decentralizzati. Perché se c’è un problema, la blockchain è sempre la risposta, giusto? Invece di preoccuparci di rendere i dati “immutabili”, dovremmo pensare a renderli “durevoli e verificabili.” In altre parole, dovremmo trovare un modo per garantire che le AI non diventino completamente rincitrullite.
L’intelligenza artificiale ha vissuto la sua infanzia mangiando tutto il web senza preoccuparsi delle conseguenze. Ora è entrata nell’adolescenza e si trova di fronte a un duro risveglio: il cibo sta finendo, e non si può più crescere solo con gli avanzi.
O le aziende tech trovano una nuova fonte di dati freschi (leggi: pagano per contenuti di qualità), o ci ritroveremo con un’AI che gira in tondo, riciclando se stessa fino a diventare un gigantesco generatore automatico di banalità.
Insomma, il futuro della tecnologia è chiaro: o si innova davvero, o finiremo con un internet fatto di chatbot che parlano solo tra loro, convinti di sapere tutto, ma senza avere la minima idea di cosa stiano dicendo.