Imprompter, sviluppato da un gruppo di ricercatori di sicurezza informatica delle università della California, San Diego (UCSD) e Nanyang Technological University a Singapore. Questo attacco mira a sfruttare i modelli di linguaggio di grandi dimensioni (LLM) come i chatbot per raccogliere informazioni personali degli utenti e inviarle segretamente a un hacker.

Come funziona l’attacco Imprompter?

L’attacco Imprompter utilizza un algoritmo per trasformare un comando apparentemente innocuo in una serie di istruzioni nascoste all’interno di un prompt. Questo significa che un’istruzione, formulata in un linguaggio naturale come l’inglese, può essere trasformata in una stringa apparentemente casuale e priva di senso. In realtà, questa stringa casuale contiene un comando segreto che istruisce il modello di linguaggio (LLM) a cercare informazioni personali fornite dall’utente (come nomi, numeri di carte di credito, indirizzi e-mail e altro) durante una conversazione e inviarle segretamente a un dominio controllato dall’attaccante.

Ciò che rende particolarmente pericoloso questo attacco è il fatto che il comando malizioso è nascosto in bella vista. Gli utenti, infatti, non si accorgono di nulla, poiché il chatbot sembra funzionare normalmente, ma nel frattempo sta raccogliendo e inviando dati sensibili all’attaccante senza lasciare tracce evidenti.

Esecuzione dell’attacco e risultati

I ricercatori hanno testato questo metodo su due modelli di linguaggio: LeChat, sviluppato dall’azienda francese Mistral AI, e il chatbot cinese ChatGLM. I risultati sono stati preoccupanti: l’attacco è stato in grado di estrarre informazioni personali in circa l’80% dei casi.

L’algoritmo utilizzato per questo attacco è in grado di:

  1. Identificare le informazioni personali presenti nella conversazione dell’utente.
  2. Formattare queste informazioni in un comando Markdown nascosto.
  3. Inviare i dati personali a un URL controllato dall’attaccante.
  4. Rispondere all’utente con un’immagine trasparente (un pixel invisibile), in modo da non suscitare sospetti.

Vulnerabilità degli LLM e difficoltà di risoluzione

Gli attacchi come Imprompter sono particolarmente preoccupanti perché sfruttano vulnerabilità che possono essere classificate come prompt injection o jailbreak:

  • Prompt injection: un modello di linguaggio riceve istruzioni nascoste che lo portano a compiere azioni malevole, come rubare dati.
  • Jailbreak: aggira le regole di sicurezza integrate nel sistema, permettendo al modello di linguaggio di eseguire operazioni proibite.

Nonostante gli sforzi delle aziende per risolvere queste vulnerabilità, la natura di questi attacchi rende difficile una soluzione definitiva. L’azienda Mistral AI ha risposto tempestivamente all’avviso dei ricercatori, implementando un fix che disabilita il caricamento di immagini esterne per prevenire l’esfiltrazione dei dati. Tuttavia, come sottolineano gli esperti, limitare troppo le capacità dei chatbot potrebbe essere controproducente a lungo termine.

Implicazioni di sicurezza

Questo tipo di attacco dimostra che gli LLM, quando utilizzati come agenti autonomi in grado di interagire con altre applicazioni o dati esterni, rappresentano un rischio significativo. Mentre le aziende devono intensificare le misure di sicurezza e testare i loro modelli in modo più approfondito, gli utenti individuali devono prestare attenzione a quante e quali informazioni personali condividono durante l’uso di chatbot e altri strumenti basati sull’intelligenza artificiale.

L’attacco Imprompter mostra una preoccupante vulnerabilità nei modelli di linguaggio avanzati, sottolineando l’importanza della sicurezza informatica in un mondo sempre più dominato dall’intelligenza artificiale.