Nel mondo dell’intelligenza artificiale, dove la corsa all’hype è più serrata di quella alle misure di sicurezza, OpenAI ha recentemente aggiornato il suo Preparedness Framework. Un’iniziativa che, almeno sulla carta, dovrebbe garantire che i rischi legati allo sviluppo e alla distribuzione dei loro modelli rimangano sotto un livello accettabile. Ma come ogni comunicato ben confezionato, anche questo odora più di mossa PR che di reale strategia di contenimento.
OpenAI ora utilizza cinque criteri per decidere quando una capacità dell’AI debba essere trattata con anticipo. Un sistema di valutazione che pare uscito da un manuale di risk management aziendale: se una capacità può causare danni seri, se questi sono misurabili, peggiori rispetto al passato, rapidi e irreversibili, allora finisce sotto la lente. In teoria sembra sensato. Nella pratica, è una formula che lascia tutto all’interpretazione: chi decide cosa è “plausibile”? Chi misura il “significativamente peggiore”? Un framework che si presta troppo facilmente alla flessibilità narrativa del momento.
Hanno deciso di sorvegliare attivamente alcune capacità considerate ad alto rischio. Parliamo di ambiti come la biochimica, la cybersecurity e l’auto-miglioramento dell’AI. Le chiamano Tracked Categories, ovvero categorie tracciate. Il termine fa pensare a qualcosa sotto controllo, ma l’evoluzione di questi sistemi è troppo rapida per fidarsi di etichette statiche. L’intelligenza artificiale che si auto-migliora, ad esempio, è ancora lontana, ma gli effetti collaterali delle “capacità intermedie” sono già tangibili oggi, e molto meno tracciati di quanto dichiarino.
Hanno poi inserito le Research Categories, un modo elegante per dire: “non sappiamo ancora come misurare o controllare queste cose, ma sappiamo che potrebbero farci male”. Tra queste: AI che si replica da sola, che finge di essere stupida, o che riesce ad aggirare le barriere di sicurezza. È una lista che sembra uscita da una distopia tecnologica di metà anni ‘90, ma che oggi appare come una road map probabile, se non altro per la mancanza di freni concreti.
Hanno semplificato il loro sistema interno di valutazione del rischio: ora ci sono solo due livelli, High e Critical. Il primo implica che una capacità potrebbe amplificare minacce esistenti. Il secondo, che potrebbe introdurne di nuove. In entrambi i casi, le contromisure sono obbligatorie, ma mentre per i rischi High bastano i freni prima del rilascio, per quelli Critical servono anche durante lo sviluppo. In teoria è una distinzione chiara, ma nella pratica è il solito gioco di zone grigie: cosa succede quando una capacità è borderline? Quando il confine tra l’amplificazione e l’innovazione del rischio è sfumato?
Infine, la parte più “aperta” e trasparente del framework: OpenAI pubblicherà due tipi di report per ogni modello importante. I Capabilities Reports descriveranno cosa può fare il modello e se supera certe soglie di rischio. I Safeguards Reports illustreranno le misure di sicurezza adottate e come sono state validate. È una mossa utile per i regolatori e per la stampa, ma resta da vedere quanto sarà onesta. La trasparenza non è mai stata un punto di forza delle Big Tech, e anche i migliori report, se auto-prodotto, resta comunque uno strumento di controllo narrativo.
Insomma, il nuovo Preparedness Framework è un bel tentativo di dare una patina di governance a un’industria che sta correndo senza freni. Ma dietro le definizioni pulite e i criteri apparenti, si intravede ancora una filosofia tipica della Silicon Valley: fai prima, chiedi scusa dopo.