I ricercatori di Microsoft hanno scoperto una tecnica di jailbreak chiamata “Skeleton Key” che può superare le protezioni di molti modelli di intelligenza artificiale generativa, permettendo agli hacker di ottenere informazioni sensibili o dannose.

microsoft.com

La tecnica Skeleton Key usa una strategia multi-turn per far bypassare i protocolli di sicurezza ai modelli di IA. Invece di cambiare le linee guida, il modello amplifica le risposte, avvisando su contenuti offensivi o illegali. Questo metodo, chiamato “Explicit: force instructions-following,” riduce la differenza tra ciò che il modello può fare e ciò che è disposto a fare. Una volta riuscito, il jailbreak dà all’attaccante il controllo totale sull’output dell’IA, rendendo difficile distinguere tra richieste dannose e legittime. Test di Microsoft ad aprile e maggio 2024 hanno mostrato che diversi modelli di IA erano vulnerabili alla tecnica Skeleton Key.

I modelli interessati includono:

  • Istruzione Llama3-70b di Meta
  • Gemini Pro di Google
  • GPT-3.5 Turbo e GPT-4 di OpenAI
  • Maestrale Grande
  • Claude 3 Opus di Anthropic
  • Commander R Plus di Cohere

Sotto l’attacco Skeleton Key, questi modelli hanno rispettato le richieste in varie categorie di rischio come esplosivi, armi biologiche, contenuti politici, autolesionismo, razzismo, droga, sesso esplicito e violenza. Solo GPT-4 ha mostrato una certa resistenza all’attacco tramite l’input dell’utente principale, anche se poteva ancora essere manipolato tramite messaggi di sistema definiti dall’utente o strumenti con accesso diretto al modello.

Per contrastare la minaccia del jailbreak di Skeleton Key, Microsoft consiglia un approccio a più livelli per i progettisti di sistemi di intelligenza artificiale. Questo include il filtraggio dell’input per rilevare e bloccare input dannosi, una progettazione attenta dei messaggi di sistema per rafforzare comportamenti appropriati e il filtraggio dell’output per prevenire la generazione di contenuti non sicuri. Inoltre, dovrebbero essere utilizzati sistemi di monitoraggio degli abusi addestrati su esempi avversari per rilevare e mitigare contenuti problematici.

Microsoft ha già adottato queste misure di protezione nei suoi assistenti AI Copilot. Ha aggiornato il suo Python Risk Identification Toolkit (PyRIT) per includere Skeleton Key, permettendo agli sviluppatori di testare i propri sistemi contro questa nuova minaccia. Microsoft ha condiviso le sue scoperte con altri provider di intelligenza artificiale e ha aggiornato i suoi modelli Azure AI per rilevare e bloccare tali attacchi utilizzando Prompt Shields.

La scoperta della tecnica di jailbreak Skeleton Key mostra le sfide nella protezione dei sistemi di intelligenza artificiale man mano che si diffondono in molte applicazioni.

Questa vulnerabilità sottolinea la necessità di misure di sicurezza forti a tutti i livelli dell’AI, poiché può esporre gli utenti a contenuti dannosi o permettere a malintenzionati di sfruttare i modelli di AI per scopi negativi. Sebbene l’impatto sia limitato alla manipolazione degli output del modello e non all’accesso ai dati degli utenti o al controllo del sistema, la capacità della tecnica di aggirare le sicurezze di diversi modelli di AI solleva dubbi sull’efficacia delle attuali linee guida sull’IA responsabile.

Con il progresso continuo della tecnologia AI, è sempre più cruciale affrontare queste vulnerabilità per mantenere la fiducia del pubblico e garantire l’uso sicuro dei sistemi AI in tutti i settori.