Se pensavi che la guerra sui dati fosse già abbastanza sporca, ecco un nuovo capitolo ancora più inquietante: Meta potrebbe aver addestrato i suoi modelli di intelligenza artificiale anche su libri non ancora pubblicati.

Il sospetto arriva dopo che The Atlantic ha lanciato un tool di ricerca nel database di LibGen, rivelando che la grande GAI (Grande AI Industriale) di Zuckerberg potrebbe essersi nutrita non solo di libri già disponibili, ma anche di opere inedite, probabilmente sottratte da piattaforme di distribuzione di copie avanzate come NetGalley ed Edelweiss.

L’autrice Maris Kreizman, scrivendo su Literary Hub, ha scoperto che il suo libro, in uscita il 1° luglio, era già nel dataset di addestramento di Meta. E qui sorge la domanda fatidica: come è possibile?

NetGalley ed Edelweiss, i principali servizi per le anteprime editoriali digitali, hanno regole ferree sull’uso dei contenuti. Teoricamente, solo recensori accreditati, editori e pochi altri soggetti possono accedere alle copie avanzate.

Ma se un colosso dell’AI è riuscito ad aggirare queste restrizioni, significa che i controlli sono meno ermetici del previsto o, peggio, che esiste una falla sistematica nel processo di distribuzione.

Meta non è nuova a polemiche sul copyright: nel 2023, l’azienda è stata accusata di aver utilizzato dati protetti per addestrare i suoi modelli Llama, tanto che comici come Sarah Silverman hanno intentato cause legali per violazione del diritto d’autore.

Tuttavia, questa nuova rivelazione apre un fronte ancora più scivoloso, perché coinvolge opere che non sono nemmeno ancora entrate nel mercato. È un salto di qualità nell’appropriazione indebita di contenuti: non siamo più solo nella zona grigia del “fair use” su testi già pubblicati, ma in un vero e proprio saccheggio di lavori non ancora disponibili al pubblico.Se la teoria di Kreizman si dimostrasse fondata, le implicazioni sarebbero devastanti per l’industria editoriale.

Gli autori vedrebbero il proprio lavoro assimilato dall’AI prima ancora che il libro arrivi sugli scaffali, senza compenso o riconoscimento. Gli editori si troverebbero di fronte a un nemico invisibile che trasforma i loro prodotti in puro carburante per i modelli linguistici, minacciando la loro sopravvivenza economica.

E gli utenti finali? Si troverebbero a interagire con AI sempre più “colte”, ma costruite su un furto sistematico della creatività umana.Ora la palla passa a Meta, che dovrà rispondere a una domanda semplice ma micidiale: da dove arrivano quei dati?

Se si scoprisse che l’azienda ha ottenuto l’accesso in modo irregolare, il rischio di cause legali si moltiplicherebbe esponenzialmente, e il dibattito sul regolamento dell’intelligenza artificiale prenderebbe una piega ancora più feroce.

Per ora, però, Meta resta silenziosa, lasciando che siano gli scrittori a suonare l’allarme.