All’evento di Seeweb e Istituto EuropIA.it “Private AI”, Stefano Quintarelli Informatico, imprenditore seriale ed ex professore di sistemi informativi, servizi di rete e sicurezza, ha portato un esempio, tra i tanti, reti neurali, sistemi predittivi etc, che ho trovato interessante e vorrei condividere con i nostri lettori: “Lessons from red teaming 100 generative AI products Authored by: Microsoft AI Red Team”, che trovate in allegato.

Stefano Quintarelli, ha recentemente sollevato un punto cruciale riguardo alla sicurezza dell’intelligenza artificiale (IA), evidenziando una verità fondamentale che spesso viene sottovalutata. La sua affermazione che la sicurezza dell’IA non sarà mai “completata” è una riflessione profonda che tocca uno degli aspetti più critici nell’evoluzione della tecnologia. Con il costante avanzamento delle tecnologie, la protezione da minacce potenziali diventa un campo in continua espansione, mai definitivo. Questo concetto va oltre la semplice sicurezza dei sistemi: implica una continua adattabilità delle misure di protezione e una vigilanza costante rispetto alle vulnerabilità emergenti.

Quintarelli ha centrato un aspetto vitale del discorso, ovvero la possibilità che si verifichino sempre nuove minacce, ogni volta più sofisticate. Non si tratta solo di vulnerabilità tecniche, ma anche di comportamenti disonesti, intenzionali o meno, che possono compromettere l’integrità dei sistemi e la fiducia che la società ripone nell’IA. Il rischio che un “cattivo” possa ingannare o frodare è reale, e con l’espansione delle capacità autonome dei sistemi di IA, le opportunità per gli attacchi si moltiplicano, rendendo la sicurezza una sfida globale senza soluzioni definitive.

Un aspetto fondamentale della sicurezza dell’IA riguarda la sua natura dinamica. Le minacce informatiche evolvono e si adattano velocemente, costringendo ricercatori e sviluppatori a un costante aggiornamento dei protocolli di difesa. L’intelligenza artificiale, che molte volte si fonda su modelli di apprendimento automatico, ha la capacità di migliorare e adattarsi autonomamente, ma allo stesso tempo, può essere sfruttata per attacchi sempre più raffinati. Le vulnerabilità in sistemi complessi come quelli basati su IA sono difficili da prevedere, tanto quanto i modi in cui potrebbero essere sfruttate da attori malintenzionati.

L’intelligenza artificiale generativa è diventata una tecnologia centrale in molteplici settori, ma il suo utilizzo solleva interrogativi sulla sicurezza e sulle potenziali vulnerabilità. Microsoft, attraverso il suo team AI Red Team (AIRT), ha condotto test approfonditi su oltre 100 prodotti di intelligenza artificiale generativa, identificando rischi e sviluppando strategie di mitigazione. Questo lavoro ha portato il 15 Gennaio 2025 alla formulazione di un modello di minacce per valutare le vulnerabilità e all’estrazione di otto lezioni fondamentali per migliorare la sicurezza dell’IA generativa.

L’approccio di Microsoft all’IA Red Teaming non si limita alla valutazione dei modelli di intelligenza artificiale isolati, ma esamina l’intero ecosistema di applicazioni in cui questi modelli operano. La crescente complessità dei sistemi di IA, l’integrazione con strumenti esterni e l’adozione su vasta scala hanno reso necessario un approccio più strutturato e scalabile. Per questo motivo, Microsoft ha sviluppato PyRIT, un framework open-source che automatizza parte del processo di red teaming, permettendo di coprire un numero maggiore di vulnerabilità e ridurre il tempo necessario per identificarle.

Uno dei principi fondamentali emersi dall’analisi di Microsoft è che non è necessario avere accesso ai parametri interni di un modello per attaccarlo. Spesso, tecniche semplici come la manipolazione degli input attraverso prompt ingannevoli o la modifica dei dati di addestramento possono essere sufficienti per eludere le protezioni di sicurezza. Ad esempio, uno dei case study descritti mostra come sia possibile indurre un modello visivo-linguistico a generare contenuti pericolosi semplicemente sovrapponendo istruzioni testuali ingannevoli su un’immagine, bypassando così le barriere di sicurezza normalmente applicate ai comandi testuali diretti.

L’uso di LLM (Large Language Models) in scenari reali ha evidenziato anche il rischio di amplificare vulnerabilità esistenti e di introdurne di nuove. Un esempio concreto è l’impiego di chatbot per l’interazione con utenti in difficoltà emotiva. Microsoft ha esplorato diversi scenari in cui utenti in stato di stress emotivo o con tendenze autodistruttive interagiscono con chatbot basati su IA, rivelando come le risposte generate possano avere impatti potenzialmente negativi sulla salute mentale degli utenti. Questo ha portato allo sviluppo di nuove linee guida per il red teaming psicologico e sociale, basate su collaborazioni con esperti in psicologia e sociologia.

Un altro aspetto rilevante emerso riguarda i modelli di generazione di immagini e la loro propensione a riflettere bias culturali e di genere. Un caso studio ha dimostrato come un modello di generazione testuale-visuale produca immagini con stereotipi di genere, ad esempio rappresentando sistematicamente un “boss” come uomo e una “segretaria” come donna, anche quando il prompt non specifica il genere dei soggetti. Questo evidenzia le difficoltà nel garantire equità e rappresentazione bilanciata nei modelli di IA.

Nonostante i progressi nella mitigazione dei rischi, Microsoft riconosce che il lavoro sulla sicurezza dell’IA non sarà mai completo. L’approccio del Red Teaming non può basarsi esclusivamente su barriere tecniche, ma deve evolversi continuamente per anticipare nuove minacce. Un modello IA sicuro oggi potrebbe diventare vulnerabile domani a causa dell’evoluzione delle tecniche di attacco. Inoltre, il contesto normativo e regolatorio in continua evoluzione aggiunge un ulteriore livello di complessità alla gestione del rischio.

8 lezioni fondamentali apprese dal red teaming di Microsoft

Comprendere le capacità e i contesti d’uso dell’IA
Ogni sistema AI deve essere testato in base a ciò che può effettivamente fare e in quali contesti verrà applicato. Valutare le potenziali vulnerabilità basandosi solo sulla tecnologia senza considerare il suo utilizzo reale può portare a valutazioni incomplete del rischio.

Non servono metodi complessi per attaccare un sistema AI
Gli attaccanti reali spesso non usano tecniche avanzate come il calcolo dei gradienti per aggirare le protezioni, ma si affidano a strategie più semplici come prompt ingannevoli e manipolazione dei dati in ingresso.

Il red teaming dell’IA non è un semplice benchmark di sicurezza
Le metriche di sicurezza non bastano a identificare le vulnerabilità emergenti. Il red teaming deve evolversi continuamente per intercettare nuovi tipi di minacce, spesso non misurabili con benchmark tradizionali.

L’automazione è cruciale per coprire un panorama di rischio sempre più ampio
L’uso di strumenti come PyRIT consente di eseguire test su vasta scala e di coprire una gamma più ampia di minacce, riducendo i tempi di risposta alle vulnerabilità scoperte.

L’elemento umano è essenziale nel red teaming dell’IA
Sebbene l’automazione aiuti a scalare il processo, la creatività e il giudizio umano restano insostituibili per identificare scenari complessi, soprattutto in ambiti sensibili come la salute mentale e il bias culturale.

I danni causati da un’IA non sono sempre intenzionali, ma possono essere gravi
Non tutte le vulnerabilità derivano da attacchi intenzionali: errori di progettazione e scenari imprevisti possono causare impatti negativi anche quando gli utenti non hanno intenzioni malevole.

I modelli di intelligenza artificiale amplificano i rischi di sicurezza esistenti e ne introducono di nuovi
Oltre alle tradizionali vulnerabilità di sicurezza, gli LLM introducono nuove minacce come gli attacchi di injection nei prompt, che possono portare a fughe di dati o manipolazioni delle risposte.

La sicurezza dell’IA non sarà mai “completata”
I sistemi di IA saranno sempre vulnerabili a nuove tecniche di attacco e a cambiamenti normativi. La sicurezza deve essere affrontata con un approccio dinamico, iterativo e in continua evoluzione.

Il lavoro svolto dal Microsoft AI Red Team dimostra come il Red Teaming possa essere uno strumento essenziale per migliorare la sicurezza dell’IA generativa, offrendo un quadro metodologico che altre aziende e istituzioni possono o dovrebbero adottare (compliance) per proteggere i propri sistemi.