Negli ultimi anni è nata la necessità di dover garantire che i sistemi basati sull’Intelligenza Artificiale siano in grado di evitare in maniera efficace eventuali comportamenti dannosi o pericolosi, soprattutto quando si parla di sistemi dotati di alta autonomia oppure per quelli impiegati in contesti
critici.

Come sappiamo, il problema della sicurezza nell’AI riguarda la capacità di questi sistemi di operare senza causare danni agli esseri umani o all’ambiente circostante.

Vari esperti (in allegato il white paper) hanno sottolineato che, senza adeguate misure di sicurezza e vista la rapida espansione di questa tecnologia, potremmo presto trovarci con sistemi senza limiti definiti che potrebbero rappresentare una minaccia esistenziale per l’umanità.

Uno dei rischi immediati più evidenti è la facilitazione della diffusione di disinformazione.

L’AI generativa, per esempio, può essere utilizzata per creare deepfake convincenti, ovvero video o audio manipolati che sembrano autentici ma sono falsi.

Tale fenomeno può avere gravi implicazioni per la fiducia pubblica e la stabilità sociale, specialmente se riguarda figure impostanti ed influenti.
Un altro rischio significativo è la potenziale discriminazione sistematica nei processi decisionali dell’AI.

Anche senza intenzioni malevole da parte dei creatori, questi sistemi possono operare in modo da svantaggiare ingiustamente certi gruppi, ad esempio si è visto come gli algoritmi più recenti possano riflettere e amplificare pregiudizi preesistenti nella società, portando a decisioni che penalizzano specifiche categorie di persone in modo sistematico.

Questo fenomeno è stato osservato con “Dall-E 2”, che tendeva a generare esclusivamente immagini di uomini bianchi quando gli veniva chiesto di rappresentare persone in posizioni di autorità.

Per garantire la sicurezza, un gruppo di esperti ha sviluppato una serie di approcci per la corretta gestione dell’AI, chiamata “guaranteed safe (GS) AI”.

La caratteristica fondamentale di questa metodologia di gestione dell’AI riguarda la produzione di sistemi composti da intelligenze artificiali, componenti fisici, hardware e software, che insieme costituiscono una garanzia di sicurezza ed affidabilità, tenendo conto delle risorse computazionali limitate.

Questo si contrappone agli approcci alla sicurezza dell’AI che fin ora si basano principalmente su valutazioni empiriche o su argomentazioni informali basate su intuizioni qualitative o pre-teoriche.

Per dare una definizione più precisa: un sistema “Guaranteed Safe AI” è un sistema dotato di processi di sicurezza quantitativi e concreti garantiti da tre componenti fondamentali:

  • un modello del mondo (che fornisce una descrizione matematica di come l’AI influisce sull’ambiente esterno),
  • una specifica di sicurezza (che descrive matematicamente quali effetti sono accettabili)
  • e un verificatore (che fornisce un certificato di prova verificabile che il sistema soddisfi le specifiche di sicurezza rispetto al modello).

Più nel dettaglio, una specifica di sicurezza corrisponde a una proprietà che desideriamo che un sistema di intelligenza artificiale soddisfi.

Ad esempio, potremmo desiderare che un sistema di intelligenza artificiale non prenda mai azioni che possano plausibilmente causare danni a un essere umano. Se abbiamo una definizione formale di danno, così come una definizione formale di causalità, allora questa proprietà di sicurezza potrebbe essere trasformata in una specifica formale ben definita (cosa non banale ma realizzabile).

Inoltre, molte specifiche di sicurezza desiderabili richiedono necessariamente un modello del mondo (o una distribuzione di modelli del mondo) che descriva la dinamica dell’ambiente del sistema di intelligenza artificiale e risponda alle domande di cosa accadrebbe nel mondo come risultato di un determinato output dell’AI.

Ad esempio, supponiamo di voler garantire che un sistema di intelligenza artificiale non prenda mai azioni che portino un essere umano a subire danni, secondo alcune definizioni (possibilmente ambigue) di “danno”. Per fare questo, abbiamo bisogno di un modello che descriva se una data azione
è probabile che porti a un essere umano a subire danni (in un dato contesto).

Più in generale, senza un modello del mondo possiamo solo verificare specifiche definite su relazioni input-output, ma spesso è auspicabile verificare specifiche su relazioni input-outcome.

Data una specifica di sicurezza e un modello del mondo, abbiamo infine bisogno di un modo per fornire garanzie quantitative per un dato sistema di Intelligenza Artificiale.

Nella forma più diretta, questo potrebbe assumere la forma di una dimostrazione formale che il sistema di Intelligenza Artificiale (o il suo output) soddisfa la specifica di sicurezza rispetto al modello del mondo.

Questo è molto simile alla verifica formale e basterebbe anche solo una dimostrazione una dimostrazione che il sistema di Intelligenza Artificiale sia in grado di convergere verso il soddisfacimento della specifica di
sicurezza.

Per offrire una classificazione pratica di quanto analizzato fin ora, possiamo immaginare di voler progettare un sistema in grado di rendere più semplici le diagnosi ed offrire rapidamente aiuto ai pazienti in visita. In questo caso, possiamo distinguere le componenti nel seguente modo:

  • Specifica di sicurezza: diagnosticare con precisione le malattie basate sui sintomi presentati dal paziente, fornire approfondimenti sulle cause sottostanti della malattia e offrire raccomandazioni di trattamento precise ed efficaci.
  • Modello del Mondo: un modello del corpo umano (descrivendo le complessità e le sfumature della fisiologia umana e della patologia) e un modello dei fattori ambientali (per la considerazione dei fattori esterni che contribuiscono all’insorgenza o alla progressione delle malattie).
  • Sistema IA: un sistema di input multimediale in grado di analizzare note diagnostiche, interpretare dati di imaging medico e fornire diagnosi e piani di trattamento accurati.
  • Verificatore: verifica di correttezza della diagnosi in seguito ai risultati ottenuti dal sistema.

Questo naturalmente è solamente un esempio delle potenzialità di questo modello e di come potrebbe essere sfruttato per iniziare a realizzare sistemi basati sull’AI seguendo un nuovo approccio architetturale.

Senza scendere ulteriormente nei dettagli tecnici, il “GS AI” (rintracciabili nel paper dedicato) mira a garantire la sicurezza dei sistemi di intelligenza artificiale dotandoli di garanzie di sicurezza formale e verificabili come non è mai stato fatto fino ad ora.

Anche se l’empirismo e l’interpretabilità sono strumenti utili, non forniscono le forti garanzie di sicurezza che può offrire la verifica formale, per questo motivo si ritiene che questi approcci meritino decisamente più attenzione e risorse di quante ne abbiano attualmente.

Creare modelli del mondo accurati e interpretabili, formulare specifiche di sicurezza precise e eseguire verifiche formali su larga scala sono tutti problemi difficili ma rappresentano un ulteriore passo verso la creazione di tecniche per utilizzare al meglio queste nuove tecnologie protagoniste
della nuova rivoluzione industriale.