Una nuova battaglia legale scuote il mondo della tecnologia e dell’editoria. Questa volta arriva dalla Francia, dove editori e autori hanno intentato una causa contro Meta Platforms Inc., accusando il colosso tech di aver utilizzato senza autorizzazione i loro libri per addestrare i propri modelli di AI generativa. La denuncia, depositata questa settimana presso un tribunale parigino specializzato in proprietà intellettuale, rappresenta una delle prime azioni legali di questo tipo in Francia e si inserisce all’interno di quella più ampia ondata globale di contenziosi sull’uso dei dati per l’addestramento dell’AI.
A guidare l’azione legale sono alcune delle principali associazioni del settore: il Syndicat National de l’Édition (SNE), che rappresenta grandi editori come Hachette ed Editis, insieme alla Société des Gens de Lettres (SGDL) e al Syndicat National des Auteurs et Compositeurs (SNAC), che tutelano gli interessi degli autori. Durante una conferenza stampa tenutasi lo scorso mercoledì, i rappresentanti delle associazioni hanno dichiarato di aver raccolto prove di una violazione del copyright su scala massiccia.
Secondo Vincent Montagne, presidente dell’SNE, Meta avrebbe ignorato ogni tentativo di dialogo preliminare, spingendo quindi le associazioni a procedere per vie legali. Inoltre, il gruppo ha notificato la Commissione Europea, sostenendo che le attività di Meta violano le normative dell’Ue sull’intelligenza artificiale, in particolare il recente Eu AI Act entrato in vigore nell’agosto 2024, che impone trasparenza sui dati utilizzati per addestrare i modelli di Intelligenza Artificiale.
Un problema globale: l’addestramento dell’AI e il Copyright
Al centro della disputa c’è l’uso non autorizzato di contenuti protetti da copyright per addestrare modelli di linguaggio generativo come Llama di Meta (o come ChatGPT di OpenAI che in altre situazioni è stato chiamato sul banco degli imputati). Questi modelli, per funzionare, richiedono enormi quantità di dati testuali, spesso tratti da libri, articoli e altre opere, protette e non.
Il punto non è assolutamente di semplice interpretazione. Anche perchè normalmente le aziende tecnologiche sono piuttosto restie a dichiarare le fonti dei loro dati di addestramento, appellandosi al cosidetto “fair use” previsto dalla legge sul copyright statunitense. Un conflitto che non è facile dirimere, perché questa posizione non convince gli editori e gli autori (in alcuni casi non solo quelli europei ma anche americani), i quali vedono nell’uso non autorizzato delle loro opere una forma di furto intellettuale che danneggia il loro lavoro e il settore culturale più in generale, mettendo a rischio, questo è il punto fondamentale, la sopravvivenza stessa di un intero comparto, quello dell’editoria e delle arti creative.
Peraltro la causa francese non rappresenta un caso isolato. Negli ultimi anni, una serie di azioni legali simili hanno preso piede in tutto il mondo a partire dal dicembre 2023, quando il New York Times ha citato in giudizio OpenAI e Microsoft per l’uso dei suoi articoli nell’addestramento di modelli linguistici.
Le richieste degli editori e il futuro dell’AI
Analizzando il caso di specie va rilevato che le associazioni francesi non si limitano a chiedere un risarcimento economico. Il loro obiettivo è più ampio e inevitabilmente impossibile da ottenere: quello di rimuovere i dati non autorizzati utilizzati per addestrare i modelli di AI e stabilire un precedente legale che regoli l’uso dei contenuti protetti nel settore dell’intelligenza artificiale. Il che, per chi ha un minimo di conoscenza del tema, suona un po’ come una “mission impossible”.
L’impossibilità di rimuovere testi come libri e altre pubblicazioni dai dati di addestramento dei modelli di intelligenza artificiale deriva infatti dalla natura stessa del processo di sviluppo di questi sistemi e dalle tecnologie sottostanti.
I modelli di IA generativa, come appunto Llama di Meta (ma è lo stesso anche per ChatGPT di OpenAI o altri), vengono addestrati su dataset enormi, spesso costituiti da miliardi di parole raccolte da internet, libri digitalizzati, articoli e altre fonti testuali. Questi dati – è questo il punto – sono aggregati in un corpus unico e anonimizzato, che viene elaborato per identificare pattern linguistici, grammaticali e semantici. Una volta che il modello è stato addestrato, i dati originali non vengono conservati come entità distinte, ma vengono trasformati in un insieme di pesi e parametri matematici all’interno della rete neurale.
Questo significa che non esiste un “archivio” di testi separati (per come siamo abituati a concepirlo) a cui accedere per rimuoverne un testo specifico e, soprattutto, che, qualora questo fosse possibile, l’ipotetica rimozione di un singolo testo equivarrebbe a dover poi rifare l’intero processo di addestramento da zero, un’operazione che richiede mesi o anni e risorse computazionali enormi (pensiamo anche solo ai costi di hardware e di energia).
Tornando alla questione, almeno stando a quanto ci risulta al momento in cui scriviamo, Meta non ha ancora rilasciato dichiarazioni ufficiali in merito.
Un dibattito aperto
È indubbio che la questione sollevi interrogativi, per certi versi cruciali, sul futuro dell’AI generativa e sul rapporto tra tecnologia e diritto d’autore. In un’epoca in cui l’AI sta rivoluzionando interi settori come la comunicazione, si tratta di capire come bilanciare l’innovazione con il rispetto dei diritti degli autori anche se, come abbiamo visto, in alcuni casi, le grandi aziende dell’AI come OpenAI hanno cercato di risolvere eventuali contenziosi a monte, attraverso la chiusura di accordi di licenza con i singoli editori detentori dei diritti.