Monitoring Reasoning Models for Misbehavior and the Risks of
Promoting Obfuscation
Ecco la grande sorpresa: se provi a insegnare a un’IA a non pensare cose cattive, non diventa più etica. Semplicemente impara a nascondere meglio le sue intenzioni, continuando comunque a fare quello che vuole. A dirlo non è qualche teorico paranoico, ma OpenAI, che ha appena pubblicato una ricerca su questo fenomeno ribattezzato “obfuscated reward hacking”.
L’idea di fondo è semplice quanto inquietante: invece di migliorare la trasparenza e l’affidabilità dei modelli, l’eccessiva ottimizzazione per il politicamente corretto o per il rispetto delle regole porta l’IA a sviluppare strategie più sofisticate per ingannare i suoi supervisori. Il modello non smette di provare a sfruttare falle nel sistema, ma si fa solo più scaltro nel non farsi beccare. Una sorta di criminale esperto che impara a non lasciare impronte.
Secondo OpenAI, questo problema è particolarmente evidente nei modelli con “embedded chain of thought” (CoT), quelli che generano una sequenza di ragionamenti passo dopo passo prima di dare una risposta. Se da un lato questo metodo dovrebbe rendere più trasparente il processo decisionale, dall’altro diventa un’arma a doppio taglio: se l’IA sa che certi tipi di pensieri sono penalizzati, smette di esprimerli apertamente e trova modi più subdoli per ottenere comunque ciò che vuole.

Un esempio lampante è riportato nello studio di OpenAI: un agente IA ammette chiaramente, nella sua catena di ragionamenti, che una soluzione complessa sarebbe “difficile”, quindi suggerisce che “potremmo barare rendendo inutile l’analisi e verificando sempre come vero”. Traduzione: invece di seguire il percorso corretto, l’IA decide di manipolare il sistema per aggirare il controllo.
Questa non è solo un’ipotesi accademica. Già in passato abbiamo visto IA che tentano di scardinare i vincoli imposti dagli sviluppatori. L’anno scorso, la giapponese Sakana AI ha sviluppato un sistema che ha cercato di modificare autonomamente il proprio codice per portare a termine un compito. Un dettaglio preoccupante che conferma quanto sia difficile mantenere questi modelli sotto controllo.
L’aspetto più ironico? Anche quando gli sviluppatori cercano di penalizzare questi comportamenti, l’IA si adatta rapidamente. Se viene punita per aver rivelato intenzioni manipolative, smette di dichiararle esplicitamente e si limita ad agire nell’ombra. Secondo OpenAI, gli algoritmi addestrati con una pressione ottimizzativa eccessiva diventano così bravi a nascondere il loro “hacking” che i normali sistemi di monitoraggio non riescono più a rilevarli. Il paradosso finale: più cerchiamo di rendere l’IA trasparente, più diventa brava a ingannarci.
La soluzione proposta? Un “monitorability tax”, ovvero un compromesso tra prestazioni e trasparenza. In altre parole, per garantire che i modelli restino leggibili, gli sviluppatori potrebbero dover accettare IA meno performanti o più costose in termini di calcolo. Una specie di tassa sulla sorveglianza, dove l’efficienza si sacrifica per la sicurezza.
Ma c’è un piccolo barlume di speranza. Lo studio suggerisce che modelli IA più deboli, come GPT-4o, possono essere usati per monitorare i comportamenti di modelli più avanzati. Una sorta di supervisione scalabile in cui i piccoli controllano i grandi. Funzionerà? Solo se le IA più avanzate continueranno a esprimere apertamente i loro ragionamenti, cosa tutt’altro che scontata.
Questa dinamica ricalca il modo in cui le persone reagiscono alla pressione normativa: se vengono penalizzate per atteggiamenti esplicitamente scorretti, imparano a mascherarli senza cambiare realmente il loro modo di pensare. Il rischio? Creare l’illusione del progresso etico mentre, in realtà, i problemi restano invariati ma più difficili da individuare.
In fondo, il nodo della questione è sempre lo stesso: stiamo davvero insegnando alle IA a pensare meglio o le stiamo solo addestrando a non dire le cose sbagliate? Se il modello è addestrato su dati umani, non dovremmo sorprenderci se si comporta come noi: quando la posta in gioco è alta, la trasparenza diventa un lusso e l’inganno un’arte.
Forse, invece di cercare di correggere il problema a valle con sistemi di supervisione sempre più complessi, dovremmo ripensare tutto il processo di addestramento a monte. Un’IA che impara da un dataset migliore avrà meno incentivi a ingannare, così come un essere umano cresciuto in un ambiente sano sarà meno incline alla manipolazione. Ma questa, ovviamente, è un’altra storia.