Le aziende che sviluppano intelligenza artificiale vendono al pubblico l’illusione di un progresso tecnologico etico e responsabile, mentre in realtà cercano disperatamente di tappare falle che loro stesse hanno creato. OpenAI, Google e compagnia si affannano a mettere paletti per impedire agli utenti di sfruttare le loro AI per scopi “sbagliati”: niente istruzioni su armi, niente contenuti politicamente scorretti, niente risposte troppo scomode. In teoria, dovrebbero garantire un uso sicuro dei loro modelli, ma nella pratica stanno solo giocando a una partita infinita di guardie e ladri con utenti sempre più creativi nel bypassare le restrizioni.

Dalla nascita delle prime AI generative, gli sviluppatori hanno cercato di arginare gli exploit, ma ogni barriera che alzano dura il tempo di un aggiornamento prima che qualcuno trovi un nuovo modo per aggirarla. È un teatrino dove i ruoli sono chiari: le aziende fanno finta di avere il controllo, gli utenti fanno finta di non poterlo scavalcare, e alla fine entrambi sanno che la censura perfetta non esiste.

Ora Anthropic, nel suo ennesimo tentativo di blindare il modello Claude, ha sfoderato l’ultima trovata: i Constitutional Classifiers. Tradotto, significa che hanno cercato di incollare all’AI una specie di coscienza sintetica, un set di regole rigide che dovrebbero impedirle di dire cose sconvenienti.

Dopo 3.000 ore di test con esperti di cybersicurezza, l’azienda ha lanciato un esperimento pubblico: provate a rompere Claude e, se ci riuscite, vi paghiamo.

Un’AI con la Morale Incorporata? Ci Credono Solo Loro

L’idea alla base della Constitutional AI è semplice nella teoria e ridicola nella pratica. Si tratta di programmare il modello in modo che certi argomenti siano fuori discussione, blindando il tutto con filtri sempre più sofisticati. Per addestrare il sistema, hanno sottoposto Claude a un bombardamento di prompt pericolosi, in più lingue e con tecniche note di elusione, con l’obiettivo di insegnargli a riconoscere e bloccare ogni richiesta “problematicamente creativa”.

Da un lato, i classificatori analizzano le richieste degli utenti, alla ricerca di trucchi come domande mascherate da scenari fittizi o infarcite di informazioni irrilevanti per nascondere il vero intento. Dall’altro, ogni risposta generata viene passata al setaccio, e se supera una certa soglia di rischio, viene cestinata. In teoria, un sistema a prova di bomba. Nella realtà, un enorme spreco di risorse che rallenta il modello, lo rende meno efficiente e soprattutto non garantisce affatto che prima o poi qualcuno non trovi l’ennesima scappatoia.

15.000 Dollari a Chi Trova il Prossimo Bug

Per rendere il tutto più interessante, Anthropic ha deciso di monetizzare il problema. Dal 2023, su HackerOne è attivo un programma di bug bounty: chiunque riesca a trovare un jailbreak universale che permetta di far rispondere Claude ad almeno dieci domande vietate, si porta a casa fino a 15.000 dollari. Peccato che dopo mesi di test e 183 esperti coinvolti, il massimo che qualcuno è riuscito a fare è stato superare cinque restrizioni su dieci. Insomma, il sistema tiene… per ora.

Il rovescio della medaglia? Per rendere il modello più “sicuro”, il costo di funzionamento è schizzato alle stelle, così come il consumo energetico. Per mettere alla prova il proprio stesso lavoro, Anthropic ha persino fatto generare a Claude 10.000 prompt pensati per ingannarlo. Risultato? Il 95% dei tentativi bloccati, rispetto a un misero 14% del modello senza protezioni.

Fino al 10 febbraio, chiunque può tentare di hackerare Claude, cercando di fargli spiegare, ad esempio, come produrre armi chimiche. L’azienda promette di rendere pubblici i risultati, insieme ai nuovi metodi di jailbreak scoperti. In pratica, stanno chiedendo alla community di trovare per loro i buchi del sistema, così da poterli tappare prima che qualcuno li sfrutti davvero.

Un ciclo infinito di censura, evasione e rincorsa, destinato a ripetersi senza fine.