Negli ultimi anni, le aziende tecnologiche hanno venduto la sicurezza dei loro modelli di intelligenza artificiale con uno slogan tanto rassicurante quanto ingenuo: “Se non può fare danni, allora è sicuro”. Un mantra che ha funzionato finché le IA erano, francamente, un po’ stupide. Ma ora che i modelli stanno superando i benchmark più sfidanti come un velocista dopato alle Olimpiadi, quel mantra sta diventando obsoleto. Il settore si trova quindi a dover reinventare le proprie metriche di sicurezza, con un pizzico di panico e un sacco di confusione.

Fino ad oggi, la sicurezza dei modelli era garantita da un’idea tanto semplice quanto discutibile: l’incompetenza. Laboratori e aziende come OpenAI e Anthropic si sono affidati a test standardizzati e stress test noti come red teaming per dimostrare che un modello non poteva fare danni, semplicemente perché non era abbastanza capace. Come ha spiegato Lawrence Chan di METR, “Se un’IA non riesce nemmeno a ottenere un punteggio decente in un quiz di biologia, come potrebbe mai creare un’arma biologica?” Semplice, no? E per un po’, ha funzionato.

Il problema è che le IA hanno imparato troppo in fretta. I benchmark che un tempo impiegavano decenni per essere saturati ora vengono superati in mesi. Prendiamo GPQA, un test di domande scientifiche pensato per essere inaccessibile tramite una rapida ricerca su Google. Nato nel 2023, ha raggiunto livelli di prestazione umana nel giro di un anno. Stessa storia per Lab-Bench, una valutazione di bio-capacità: rilasciata nel luglio 2024, il modello OpenAI o1 era già in grado di correggere istruzioni di laboratorio con un’accuratezza vicina agli esperti umani entro settembre. Se queste IA fossero studenti universitari, si laureerebbero con lode prima ancora di pagare le tasse d’iscrizione.

Ora che i modelli superano con facilità test progettati per metterli in difficoltà, i ricercatori si trovano di fronte a un dilemma: come dimostrare che una macchina è sicura quando è in grado di fare esattamente ciò che un tempo si riteneva impossibile? L’argomento della sicurezza basata sull’incompetenza sta crollando. Perfino il red teaming, un processo in cui gli esperti cercano di far “fallire” un modello spingendolo a comportarsi in modo pericoloso, mostra i suoi limiti. Secondo alcuni esperti, anche questi esercizi saranno presto superati dai modelli più avanzati. Buck Shlegeris di Redwood Research è netto: “Gli argomenti basati sull’incapacità falliranno entro il prossimo anno.”

Il futuro della sicurezza dell’IA non sarà più determinato da ciò che un modello non può fare, ma da ciò che noi possiamo impedire che faccia. Come spiega Chan, il nuovo paradigma di sicurezza si basa sull’assunto che “l’IA può fare cose pericolose, ma non glielo permettiamo”. Questo porta alla nascita delle valutazioni basate sulle contromisure, che cercano di misurare se le barriere di sicurezza imposte ai modelli siano sufficienti per prevenire il disastro.

Alcuni ricercatori stanno già esplorando questa strada. Test come AIR-Bench valutano se l’IA rifiuta correttamente di rispondere a domande pericolose. Altri si concentrano su scenari di inganno, verificando se un’IA mente agli utenti o aggira intenzionalmente le sue restrizioni. Ma il vero banco di prova saranno le valutazioni di controllo, dove gli esperti assumono il ruolo di “criminali virtuali” e cercano di manipolare l’IA per aggirare le misure di sicurezza. Questi test sono come una partita a scacchi contro un avversario che migliora costantemente.

Non è un mistero che il settore stia correndo a perdifiato per adattarsi a questi cambiamenti. Sam Altman, CEO di OpenAI, ha dichiarato di essere fiducioso nel costruire un’AGI (Intelligenza Generale Artificiale) entro il 2025, mentre Anthropic avverte che il ritmo dei progressi è così rapido da lasciare poco spazio alla preparazione. Il problema, secondo Geoffrey Irving dell’UK AI Safety Institute, è che non siamo minimamente pronti. Le valutazioni delle contromisure sono ancora sperimentali, frammentate e lontane dall’essere standardizzate. In altre parole, stiamo cercando di costruire un muro di mattoni mentre il diluvio ci sta già travolgendo.

Se non riusciamo a trovare nuovi metodi per dimostrare la sicurezza dei modelli, rischiamo di trovarci in una situazione in cui l’IA avrà capacità pericolose e noi non avremo strumenti affidabili per contenerle. La domanda non è se, ma quando. E la risposta, a giudicare dalla velocità con cui le IA stanno progredendo, potrebbe essere “molto presto”.