La rivoluzione dei chatbot ha inondato il nostro mondo di testi generati dall’IA, presenti in ogni angolo della nostra vita quotidiana: dai feed delle notizie, ai saggi accademici, fino alle email. La loro abbondanza è talmente ridondante che sono nati interi settori per affrontare la questione, offrendo soluzioni per identificare testi generati dall’IA e servizi che promettono di “umanizzare” questi testi, rendendoli indistinguibili da quelli scritti da un essere umano. Tuttavia, entrambi i tipi di strumenti presentano prestazioni discutibili, e man mano che i chatbot diventano più sofisticati, diventa sempre più difficile distinguere tra testi generati da algoritmi e quelli scritti da persone.
Un approccio innovativo proposto per affrontare questa sfida è l’aggiunta di un watermark, o di una sorta di credenziale di contenuto, ai testi fin dall’inizio, che consenta di verificare facilmente se un testo è stato generato dall’IA. Recenti ricerche condotte da Google DeepMind, pubblicate sulla rivista Nature, propongono proprio questo. Il sistema, chiamato SynthID-Text, non compromette “la qualità, l’accuratezza, la creatività o la velocità della generazione del testo”, afferma Pushmeet Kohli, vicepresidente della ricerca di Google DeepMind e coautore dello studio. Tuttavia, i ricercatori riconoscono che il loro sistema è tutt’altro che infallibile e non è ancora disponibile per tutti: al momento è più una dimostrazione che una soluzione scalabile.
L’Integrazione di SynthID-Text nei Chatbot
Google ha già integrato questo nuovo sistema di watermarking nel suo chatbot Gemini. L’azienda ha anche reso open-source lo strumento, permettendo a sviluppatori e aziende di utilizzarlo per determinare se i testi prodotti provengono dai propri modelli di linguaggio di grandi dimensioni (LLM). Tuttavia, solo Google e gli sviluppatori autorizzati hanno attualmente accesso al detector che verifica la presenza del watermark. Kohli osserva: “Sebbene SynthID non sia una panacea per identificare contenuti generati dall’IA, rappresenta un importante blocco di partenza per sviluppare strumenti di identificazione dell’IA più affidabili.”
L’Importanza delle Credenziali di Contenuto
Le credenziali di contenuto sono state oggetto di discussione soprattutto in relazione a immagini e video, considerate una possibile soluzione contro l’aumento dei deepfake. Tecnologie e importanti media hanno collaborato a un’iniziativa chiamata C2PA, che ha lavorato a un sistema per allegare metadati crittografati a file di immagini e video, indicanti se sono reali o generati dall’IA. Tuttavia, il testo rappresenta una sfida più difficile, poiché può essere facilmente modificato per nascondere o eliminare un watermark. Sebbene SynthID-Text non sia il primo tentativo di creare un sistema di watermarking per i testi, è il primo testato su 20 milioni di richieste.
Esperti esterni che lavorano sulle credenziali di contenuto vedono la ricerca di DeepMind come un passo positivo. “Promette di migliorare l’uso di credenziali di contenuto durevoli da C2PA per documenti e testi grezzi,” afferma Andrew Jenks, direttore della provenienza dei media di Microsoft e presidente esecutivo del C2PA. “È un problema difficile da risolvere e fa piacere vedere dei progressi.”
Come Funzionano i Watermark nei Testi di Google
SynthID-Text funziona interferendo discretamente nel processo di generazione: modifica alcune delle parole che un chatbot restituisce all’utente in un modo invisibile per gli esseri umani, ma chiaro per un detector SynthID. “Tali modifiche introducono una firma statistica nel testo generato,” scrivono i ricercatori nel loro studio. Durante la fase di rilevamento del watermark, la firma può essere misurata per determinare se il testo è stato effettivamente generato dall’LLM contrassegnato.
Gli LLM che alimentano i chatbot generano frasi parola per parola, considerando il contesto di ciò che è stato scritto in precedenza per scegliere la parola successiva più probabile. In sostanza, SynthID-Text interferisce assegnando punteggi numerici casuali alle parole candidate e facendo sì che l’LLM restituisca parole con punteggi più alti. Successivamente, un detector può esaminare un testo e calcolarne il punteggio complessivo; i testi contrassegnati avranno un punteggio più alto rispetto a quelli non contrassegnati. Il team di DeepMind ha confrontato le prestazioni del proprio sistema con altri strumenti di watermarking testuali che alterano il processo di generazione, scoprendo che SynthID-Text si comportava meglio nel rilevamento dei testi contrassegnati.
Tuttavia, i ricercatori ammettono che è ancora facile alterare un testo generato da Gemini e ingannare il detector. Anche se gli utenti non saprebbero quali parole modificare, se apportano modifiche significative al testo o chiedono a un altro chatbot di riassumere il testo, è probabile che il watermark venga oscurato.
La Sfida della Scoperta dei Watermark a Scala
Per garantire che SynthID-Text non compromettesse la qualità delle risposte generate dai chatbot, il team ha testato il sistema su 20 milioni di richieste presentate a Gemini. La metà di queste richieste è stata indirizzata al sistema SynthID-Text, ricevendo una risposta contrassegnata, mentre l’altra metà ha ricevuto la risposta standard di Gemini. In base ai feedback degli utenti, le risposte contrassegnate sono risultate altrettanto soddisfacenti di quelle standard.
Questo è ottimo per Google e per gli sviluppatori che costruiscono su Gemini. Tuttavia, affrontare il problema completo dell’identificazione dei testi generati dall’IA richiederà che molte più aziende di intelligenza artificiale implementino tecnologie di watermarking, idealmente in modo interoperabile, affinché un solo detector possa identificare testi provenienti da molti LLM diversi. E anche nel caso improbabile che tutte le principali aziende di IA accettassero un accordo, ci sarebbe comunque il problema degli LLM open-source, che possono facilmente essere modificati per rimuovere qualsiasi funzionalità di watermarking.
MacCormack, del C2PA, osserva che la rilevazione è un problema particolare quando si inizia a pensare all’implementazione pratica. “Ci sono sfide nella revisione del testo in libertà,” afferma, “dove bisognerebbe sapere quale modello di watermarking è stato applicato per sapere come e dove cercare il segnale.” In generale, afferma che i ricercatori hanno ancora molta strada da fare. Questo sforzo “non è un vicolo cieco,” afferma MacCormack, “ma è il primo passo su un lungo cammino.”