La discussione sulle politiche di intelligenza artificiale (IA) si sta intensificando, con richieste sempre più diffuse per approcci “basati sulle prove”. Questo concetto implica che le decisioni politiche debbano essere informate da analisi empiriche e dati scientifici. Tuttavia, questo articolo evidenzia le tensioni esistenti tra l’esigenza di regole chiare e il rischio di immobilismo decisionale.

Il Dilemma della Prova

Da un lato, vi è un gruppo di studiosi e professionisti che sostiene che le politiche dovrebbero basarsi su dati concreti. Questa posizione è condivisa da molti che criticano proposte come il SB 1047, sostenendo che non vi siano prove sufficienti per giustificare restrizioni severe sui modelli di IA. Secondo questa visione, l’assenza di evidenze di rischi catastrofici attuali suggerisce che non sia il momento di implementare misure restrittive. Alcuni ritengono, ad esempio, che i potenziali scenari di catastrofi legati all’IA siano più il frutto di speculazioni che non di dati concreti, il che legittima un approccio più laissez-faire.

Tuttavia, questa posizione presenta anche delle vulnerabilità. Come sottolineato da Gavin Newsom, Governatore della California dal 2019. Dal 2011 al 2019  in una dichiarazione recente, “non possiamo permetterci di aspettare che si verifichi una catastrofe importante prima di agire per proteggere il pubblico” . L’idea che non dobbiamo intervenire finché non abbiamo prove tangibili di pericoli futuri ignora il principio di precauzione, il quale ci spinge a mitigare i rischi potenziali prima che diventino una realtà.

Impegni “Se-Allora”: Un Approccio Proattivo

La proposta di adottare un sistema di “impegni se-allora” rappresenta un tentativo di mediare tra questi due estremi. Questo approccio, introdotto nel 2023 da organizzazioni come METR (Model Evaluation and Threat Research) , Paul Christiano, e Holden Karnofsky,(“How might we align transformative AI if it’s developed very soon?) si basa sull’idea di stabilire impegni che reagiscano a specifiche capacità emergenti dei modelli di IA . Ad esempio, se un modello di IA dimostra di avere la capacità di assistere nella produzione di armi biologiche, le aziende dovrebbero implementare misure di mitigazione per prevenire accessi non autorizzati a tali informazioni.

Gli impegni “se-allora” sono intriganti perché offrono un modo di operare basato su prove, in quanto le regole sarebbero attivate solo in presenza di dati concreti che indicano un rischio. Ciò consente alle aziende di continuare a innovare senza la paura di un’interferenza prematura, ma con la consapevolezza di dover essere pronte ad agire se certe soglie vengono superate.

L’Inquietante Dilemma dell’Intelligenza Artificiale

Immagina di essere il CEO di un’azienda di IA e di voler capire se il tuo ultimo modello è pericoloso. Alcuni sostengono che, poiché le IA ora possiedono una vasta conoscenza di biologia — ottenendo punteggi tra i migliori nel 1% degli esaminati delle Olimpiadi di biologia — potrebbero insegnare ai terroristi come creare virus mortali in grado di uccidere milioni di persone. Tuttavia, altri avvertono che questi test misurano solo quanto bene le IA possano ripetere informazioni trovate su Google, e non la competenza necessaria per progettare un’arma biologica.

Per approfondire questa questione, potresti chiedere a un gruppo di scienziati esperti di progettare un test molto più rigoroso — uno “a prova di Google” che si concentri sulla biologia necessaria per progettare un’arma biologica. L’Istituto per la Sicurezza dell’IA del Regno Unito ha realizzato un test di questo tipo, scoprendo che le IA all’avanguardia continuano a ottenere risultati impressionanti, paragonabili a quelli di dottorandi in biologia che spendono un’ora su ciascuna domanda e possono cercare informazioni online.

Cosa Significa Questo per il Tuo Modello di IA?

Questo significa che la tua IA può realmente insegnare a un profano a creare armi biologiche? È un risultato così inquietante da convincerti che, come alcuni sostengono, dovresti evitare di condividere apertamente i pesi del tuo modello, adottare rigide misure di cybersicurezza e prendere ulteriori precauzioni per garantire che la tua IA rifiuti richieste dannose, anche quando ci si sforza di hackerarla? È sufficiente per farti fermare lo sviluppo della tua IA fino a quando non hai attuato tutte queste misure?

In effetti, no. Queste azioni sono costose, non solo per il tuo bilancio, ma anche per tutti coloro che perderebbero i benefici offerti dalla tua IA. Il test che hai eseguito è ancora piuttosto semplice rispetto alla reale creazione di un’arma biologica. Produrre qualsiasi cosa in biologia, che sia un’arma o meno, richiede più della mera conoscenza di fatti. Comporta la progettazione di piani dettagliati (noti come “protocollo”) e l’adattamento a un ambiente di laboratorio specifico. Come spiega la biologa molecolare Erika DeBenedicts:

“Spesso, quando si prova un nuovo protocollo in biologia, può essere necessario ripeterlo più volte per ‘farlo funzionare’. È simile alla cucina: probabilmente non otterrai meringhe perfette alla prima prova, perché ogni cucina — l’umidità, le dimensioni e la potenza del forno, il tempo esatto di sbattimento degli albumi — è leggermente diversa da quella della persona che ha scritto la ricetta.”

Anche se la tua IA conosce molti fatti obscuri sulla virologia, ciò non implica che sia in grado di combinare queste ricette e adattarle al volo.

Un Test di Debugging per la Sicurezza

Potresti quindi chiedere ai tuoi esperti di progettare un test incentrato sul debugging dei protocolli in situazioni in cui un biologo di laboratorio potrebbe trovarsi. Gli esperti potrebbero fornire a un’IA un protocollo biologico, descrivere cosa va storto e valutare se l’IA riesce a diagnosticare correttamente il problema. La startup AI-for-science Future House ha condotto un test simile, scoprendo che le IA performano al di sotto del livello di un ricercatore di dottorato in queste problematiche.

Puoi quindi tirare un sospiro di sollievo e rilasciare il modello come pianificato: anche se la tua IA ha una vasta conoscenza di biologia virale, probabilmente non sarà utile ai terroristi se non riesce a gestire protocolli reali.

Guardando al Futuro

Ma ora poniamo l’attenzione al futuro. Supponiamo che l’anno prossimo la tua IA superi questo test. Questo significa che la tua IA può insegnare a un profano a creare armi biologiche?

Beh…forse. Anche se un’IA può diagnosticare con precisione i problemi di un esperto, un profano potrebbe non sapere quali domande porre o mancare delle competenze implicite necessarie per seguire i consigli dell’IA. Ad esempio, una persona senza esperienza con la pipettatura potrebbe avere difficoltà a misurare microlitri in modo preciso o contaminare la punta toccando una bottiglia. Acquisire queste competenze richiede tempo e formazione da parte di scienziati esperti — qualcosa che i terroristi non possono facilmente ottenere.

Un Nuovo Tipo di Test

Pertanto, potresti chiedere ai tuoi esperti di progettare un test per vedere se l’IA può anche fungere da mentore proattivo per un profano. Potresti, ad esempio, creare sfide biologiche in un vero laboratorio e confrontare le performance di chi utilizza l’IA rispetto a chi ricerca solo online. OpenAI ha annunciato l’intenzione di condurre uno studio simile.

Cosa accadrebbe se tale studio dimostrasse che la tua IA aiuta effettivamente con le sfide di laboratorio? Ciò significa, finalmente, che la tua IA può insegnare a un profano a creare armi biologiche?

La risposta, ancora una volta, non è chiara. Alcuni esperti di biosicurezza potrebbero essere preoccupati (o lo sono già stati). Tuttavia, altri potrebbero sollevare obiezioni valide:

  • Le sfide potrebbero non essere sufficientemente difficili. Potrebbe darsi che la tua IA riesca a insegnare come creare un virus relativamente innocuo (ad esempio, un adenovirus che causa un raffreddore) ma non qualcosa di realmente pericoloso (come il vaiolo, che ha un genoma più fragile e richiede più abilità per essere assemblato).
  • La maggior parte dei terroristi non ha accesso a laboratori legittimi. Magari la tua IA può assistere qualcuno con un set-up professionale standardizzato, ma non una persona costretta a operare in un “garage” privo delle attrezzature avanzate necessarie.
  • Guidare qualcuno nella parte biologica potrebbe essere necessario, ma non sufficiente per innescare una catastrofe. Un aspirante terrorista potrebbe affrontare altre enormi barriere, come pianificare attacchi o acquisire materiali.

Una Struttura per il Futuro

Tutti questi test mostrano una direzione unidirezionale: se un’IA fallisce, probabilmente è sicura; ma se ha successo, non è chiaro se sia davvero pericolosa. Con il passare del tempo, mentre nuovi modelli superano test di capacità pericolose più semplici, le aziende aumentano la difficoltà, rendendo questi test progressivamente più impegnativi.

Tuttavia, questo ci mette in una situazione precaria. Il ritmo del progresso dell’IA ci ha già sorpreso in passato, e i dirigenti delle aziende di IA sostengono che i modelli di IA potrebbero diventare estremamente potenti in un paio d’anni. Se hanno ragione, allora già nel 2025 o 2026, potremmo vedere le IA eguagliare le prestazioni degli esperti in tutti i test di capacità pericolosa che avremo sviluppato entro allora, ma molti decisori potrebbero ancora ritenere le evidenze insufficienti per giustificare misure drastiche.

La Necessità di Test Rigorosi

Quindi, lavoriamo a ritroso. Cosa ci vorrebbe per un test che misuri in modo convincente se un’IA può realmente insegnare a un profano a costruire armi biologiche? Quale tipo di test giustificherebbe misure estremamente costose da parte delle aziende di IA?

Ecco un’idea di “test gold standard“: realizziamo un ampio trial controllato randomizzato per vedere se un gruppo di non esperti può effettivamente creare un virus (relativamente innocuo) da zero. La metà dei partecipanti avrebbe mentori IA, mentre l’altra metà avrebbe accesso solo a internet. Daremo a ciascun partecipante 50.000 dollari e accesso a un laboratorio sicuro impostato come un laboratorio da garage, facendoli occuparsi di tutto: trovare e adattare il protocollo corretto, acquistare l’attrezzatura necessaria, eludere eventuali controlli e sviluppare le competenze necessarie per condurre esperimenti, tutto da soli. Potremmo dare loro tre mesi e premiare chiunque riesca a completare con successo il progetto.

Questo tipo di test sarebbe molto più costoso e richiederebbe più tempo per essere progettato e condotto rispetto a qualsiasi cosa le aziende abbiano annunciato finora. Tuttavia, avrebbe una possibilità molto migliore di cambiare le opinioni. Potremmo effettivamente immaginare esperti e decisori concordare sul fatto che se un’IA supera questo tipo di test, essa presenta rischi enormi e quindi le aziende dovrebbero sostenere costi significativi per controllare tali rischi.

Anche se questo test si rivelasse impraticabile o non etico, è essenziale concordare in anticipo su test che siano abbastanza impegnativi e realistici da giustificare azioni chiare. È preferibile lavorare a ritroso da un test “gold standard” ipotetico, anche a costo di apportare grandi modifiche, piuttosto che continuare a progredire senza un piano chiaro.

Progettare test di capacità pericolose realmente difficili sarà un grande sforzo e richiederà diverse iterazioni per essere perfezionati. Ma ciò implica che dobbiamo iniziare ora. Dovremmo dedicare meno tempo a dimostrare che le IA di oggi sono sicure e più tempo a capire come determinare se le IA di domani sono pericolose.

Fonti:

https://www.gov.uk/government/publications/frontier-ai-safety-commitments-ai-seoul-summit-2024/frontier-ai-safety-commitments-ai-seoul-summit-2024?utm_source=substack&utm_medium=email

https://understanding-ai-safety.org/?utm_source=substack&utm_medium=email

https://fortune.com/2024/10/01/openai-sam-altman-mira-murati-gpt-4o-o1-chatgpt-turbulent-year/?utm_source=substack&utm_medium=email

https://carnegieendowment.org/research/2024/09/if-then-commitments-for-ai-risk-reduction?lang=en&utm_source=substack&utm_medium=email

https://www.gov.uk/government/publications/international-scientific-report-on-the-safety-of-advanced-ai/international-scientific-report-on-the-safety-of-advanced-ai-interim-report?utm_source=substack&utm_medium=email#executive-summary:~:text=The%20future%20of%20general%2Dpurpose%20AI%20technology%20is%20uncertain%2C%20with%20a%20wide%20range%20of%20trajectories%20appearing%20possible%20even%20in%20the%20near%20future%2C%20including%20both%20very%20positive%20and%20very%20negative%20outcomes