Il tema del copyright e dei diritti d’autore in relazione all’intelligenza artificiale è un argomento complesso che tocca questioni legali, etiche e creative, ma anche aspetti tecnici legati alla struttura stessa degli LLM. Con il rilascio di modelli di AI sempre più sofisticati, capaci di generare testi, musica, immagini e altri contenuti, il dibattito su come vengano utilizzati i dati per “addestrare” questi sistemi e le implicazioni per i detentori dei diritti su queste opere è di grande attualità.

Quando ci si domanda se sia possibile tentare di rimuovere libri, articoli, immagini, musica e quant’altro dai modelli di AI – come spesso richiedono i detentori dei diritti stessi – la risposta è che nella pratica è un task estremamente difficile e spesso impossibile da realizzare in modo efficace.

Questo perché il processo di addestramento di un modello di intelligenza artificiale è irreversibile e non consente un’eliminazione “selettiva” dei dati una volta che sono stati assimilati dal modello. L’impossibilità di rimuovere testi, libri e altre pubblicazioni dai dati di addestramento dei modelli di intelligenza artificiale deriva dalla natura stessa del processo di sviluppo di questi sistemi e dalle tecnologie sottostanti.

Per capire il motivo per cui quest’attività di rimozione sia di fatto impossibile da realizzare occorre anzitutto capire come vengono addestrati, quindi come “imparano”, i modelli di AI.

ChatGPT di OpenAI, Llama di Meta, Claude di Anthropic, così come tutti gli altri modelli di AI generativa, vengono addestrati su enormi dataset, spesso costituiti da miliardi di contenuti raccolti da internet, da libri digitalizzati, da articoli e altre fonti non solo testuali, che comprendono immagini, opere d’arte, video e quant’altro rientri nel più grande segmento delle arti creative. Tutti questi dati sono aggregati in un corpus unico e anonimizzato, che viene elaborato per identificare pattern linguistici, grammaticali e semantici.

Tecnicamente il processo si sviluppa in più fasi:

  • Aggregazione e generalizzazione: il modello non memorizza il testo parola per parola, ma ne apprende le strutture e le dinamiche linguistiche in forma distribuita all’interno della rete neurale;
  • Tokenizzazione: i contenuti (libri, articoli, siti web, immagini, video e altro) vengono scomposti in unità più piccole chiamate token, che rappresentano parole o parti di immagini;
  • Addestramento su pesi e connessioni neurali: il modello analizza miliardi di token, imparando relazioni statistiche tra di essi e costruendo rappresentazioni astratte del linguaggio.

Una volta che il modello è stato addestrato, i dati originali non vengono conservati come entità distinte, ma vengono trasformati in un insieme di pesi e parametri matematici all’interno della rete neurale.

Tutto questo significa, molto semplicemente, che non esiste un “archivio” di testi, immagini o video separati a cui accedere per rimuoverne uno specifico. Anche se un autore o un editore identificasse un’opera specifica nel dataset iniziale (cosa già difficile, dato che molti dati sono raccolti senza metadati precisi), non ci sarebbe quindi un modo pratico per “estrarre” quella conoscenza dal modello senza comprometterne l’intera struttura. Il che vuol dire che è di fatto impossibile “cancellare” selettivamente un libro, un articolo, un’immagine, un’opera o altro senza riaddestrare il modello da zero.

L’unica soluzione, paradossalmente, sarebbe quella di rifare l’intero processo di addestramento da zero, un’operazione che richiederebbe mesi o anni e risorse computazionali enormi, il che, volendo essere realistici, è una cosa che nessuna azienda che si occupa di AI sarebbe disposta a fare. Anche perché, questa procedura sarebbe incompatibile con la rapidità con cui le aziende tecnologiche devono rilasciare e aggiornare i loro modelli per restare competitive.

Occorre poi considerare che nei dataset utilizzati non ci sono solo opere protette da copyright e per le quali non è stata chiesta in via preventiva alcun tipo di autorizzazione all’utilizzo, ma anche dati dinamici e derivati da fonti pubbliche o scansionate (come ad esempio testi e libri fuori copyright, siti web o repository come Common Crawl).

Per avere un quadro d’insieme il più possibile completo sul tema occorre considerare che, anche se la rimozione diretta è impossibile, esistono alcune strategie che potrebbero essere in grado di mitigare il problema, come ad esempio, l’utilizzo di filtri in output, ovvero dei meccanismi che impediscono al modello di riprodurre direttamente parti di testi protetti da copyright, evitando che generi frasi identiche a quelle dei testi originali.

In ogni caso, come abbiamo visto, rimuovere un libro o un’opera da un modello di intelligenza artificiale già addestrato è una sfida tecnica al confine dell’impossibile: significherebbe, di fatto, ricominciare da zero.

Di fronte a modelli ormai consolidati, la via più pratica per sanare il conflitto tra diritto d’autore e tecnologia potrebbe essere quella di un compromesso economico: accordi di remunerazione tra le aziende di IA e i titolari dei diritti, un approccio che alcune realtà stanno già iniziando a esplorare.

Ma la soluzione, apparentemente semplice, nasconde un’insidia: come quantificare un “equo compenso” per un’opera assorbita da un algoritmo?

Senza un accordo generale – che coinvolga non solo aziende e autori, ma anche associazioni di categoria come garanti di un equilibrio – il rischio è di scivolare in una nuova ondata di contenziosi legali, con creatori e colossi tecnologici a dibattere sul valore di una library, di un singolo verso, articolo o brano musicale.

E se la risposta non fosse solo economica, ma richiedesse una rivoluzione normativa globale, magari con regole condivise sull’uso dei dati?

O se, alla fine, toccasse agli utenti stessi – noi che leggiamo, ascoltiamo, creiamo – pretendere trasparenza?

Una cosa è certa: nessuno ha mai detto che sarebbe stato semplice. E forse è proprio questa complessità a rendere il dibattito così drammaticamente urgente e incredibilmente affascinante.