Il governo degli Stati Uniti ha creato un istituto dedicato alla sicurezza dell’intelligenza artificiale per guidare la cooperazione tra il settore pubblico e quello privato allo sviluppo di sistemi di intelligenza artificiale sicuri, ha affermato un alto funzionario dell’amministrazione Biden.
L’AISI ha pubblicato il suo progetto iniziale il 31 luglio 2024, delineando le migliori pratiche per i sviluppatori per gestire i rischi di abuso associati ai modelli fondazionali a doppio uso, che possono potenzialmente facilitare attività dannose come lo sviluppo di armi biologiche o attacchi informatici.
Le linee guida erano aperte ai commenti pubblici fino al 9 settembre 2024. Gli stakeholder hanno fornito feedback su vari aspetti del progetto, sottolineando la necessità di un approccio completo alla gestione dei rischi.
Sintesi dei Commenti
Differenziazione dei Rischi: Il Center for Data Innovation ha raccomandato che l’AISI differenzi tra rischi prevedibili e rischi dipendenti dal contesto, come quelli derivanti da chatbot AI rispetto allo sviluppo di farmaci.
Sistemi Multi-Agente: Sono state sollevate preoccupazioni riguardo ai rischi in ambienti multi-agente dove più sistemi AI interagiscono, potenzialmente portando a fallimenti a cascata che le linee guida attuali non affrontano adeguatamente.
Meccanismo di Segnalazione degli Incidenti: Diverse organizzazioni hanno suggerito l’implementazione di un meccanismo di segnalazione degli incidenti per monitorare gli abusi dopo il rilascio, garantendo una gestione continua del rischio oltre la fase di sviluppo iniziale.
Coinvolgimento di Esperti: C’è una richiesta per linee guida più esplicite sul coinvolgimento di esperti del settore—come scienziati sociali ed esperti di salute pubblica—nell’identificazione e mitigazione dei rischi di abuso, in particolare in relazione a questioni di pregiudizio e discriminazione.
Linee Guida per Modelli Aperti vs. Chiusi: Il feedback ha evidenziato la necessità di linee guida su misura che riconoscano le sfide uniche poste sia dai modelli open source che da quelli closed source nella gestione dei rischi di abuso.
L’iniziativa dell’AISI rappresenta un passo significativo verso l’affrontare le complesse sfide poste dai modelli AI a doppio uso. I feedback ricevuti durante il periodo di commento pubblico influenzeranno probabilmente le linee guida finali, con l’obiettivo di creare un framework più sicuro per lo sviluppo e l’implementazione dell’AI.
Degno di Nota in questo contesto è la Politica di Scalabilità Responsabile di Anthropic
La Politica di Scalabilità Responsabile (RSP) di Anthropic, efficace dal 19 settembre 2023, delinea un framework per gestire i rischi associati ai sistemi AI sempre più capaci. La politica riconosce che, sebbene i modelli AI avanzati possano generare un significativo valore economico e sociale, presentano anche gravi rischi, in particolare rischi catastrofici che potrebbero portare a devastazioni su larga scala.
La RSP introduce un approccio strutturato per valutare e mitigare i rischi attraverso un sistema chiamato Livelli di Sicurezza AI (ASL). Questo sistema è ispirato ai livelli di biosicurezza utilizzati nella gestione di materiali biologici pericolosi e categorizza i modelli AI in base al loro potenziale di rischio catastrofico:
- ASL-1: Sistemi che non presentano rischi catastrofici significativi (ad es., modelli AI di base).
- ASL-2: Sistemi che mostrano segni precoci di capacità pericolose ma non sono ancora affidabili (ad es., attuali modelli linguistici come Claude).
- ASL-3: Sistemi che aumentano significativamente il rischio di uso catastrofico o dimostrano capacità autonome a basso livello.
Categorie di Rischio
La RSP si concentra su due categorie principali di rischi:
- Rischi di Distribuzione: Derivanti dall’uso attivo di modelli AI potenti, inclusi abusi da parte di attori malintenzionati.
- Rischi di Contenimento: Associati semplicemente al possesso di modelli AI potenti, come il potenziale furto di questi modelli o la possibilità che agiscano autonomamente in modi dannosi.
Impegni e Misure di Sicurezza
Anthropic si impegna a sospendere l’addestramento di modelli più potenti se la loro scalabilità supera la capacità di conformarsi alle procedure di sicurezza. Questo approccio mira a incentivare lo sviluppo di misure di sicurezza, consentendo nel contempo l’uso dei modelli esistenti per migliorare le caratteristiche di sicurezza dei modelli futuri.La politica enfatizza un approccio collaborativo, sperando di creare una “corsa verso l’alto” tra i laboratori AI, dove gli incentivi competitivi guidano i progressi nei protocolli di sicurezza. La RSP è stata formalmente approvata dal consiglio di amministrazione di Anthropic, con modifiche che richiedono consultazione e supervisione da parte del Trust per il Beneficio a Lungo Termine.
Anthropic prevede che, adottando questa politica, possano meglio navigare nel complesso panorama dei rischi legati all’AI promuovendo applicazioni benefiche. Il loro approccio è progettato per evolversi man mano che la comprensione dei sistemi AI si sviluppa, riflettendo un impegno per la valutazione continua e il perfezionamento delle misure di sicurezza.