Google ha recentemente introdotto un innovativo metodo per estrarre dati da modelli di intelligenza artificiale come ChatGPT e PaLM-2.
Questo metodo, che prende di mira il livello di proiezione incorporata nei modelli, ha rivelato che le dimensioni nascoste dei modelli Ada e Babbage di OpenAI sono rispettivamente di 1024 e 2048.
Ciò rappresenta un passo significativo nell’analisi dei modelli AI e offre nuove opportunità per comprendere e utilizzare al meglio queste potenti risorse computazionali.
Quando abbiamo eseguito lo stesso attacco su ChatGPT, sembra che non ci sia quasi alcuna memorizzazione, perché ChatGPT è stato “allineato” per comportarsi come un modello di chat. Ma eseguendo il nostro nuovo attacco, possiamo far sì che emetta dati di addestramento 3 volte più spesso rispetto a qualsiasi altro modello che studiamo.
La tecnica principale prevede di chiedere ai modelli di continuare sequenze di frammenti di testo casuali e di verificare se le continuazioni generate contengano passaggi letterali da set di dati disponibili al pubblico per un totale di oltre 9 terabyte di testo.
Attraverso questa strategia, sono stati estratti oltre un milione di esempi unici di addestramento, ciascuno con più di 50 token, da modelli più piccoli come Pythia e GPT-Neo. Inoltre, dall’enorme modello OPT-175B, composto da 175 miliardi di parametri, sono stati estratti oltre 100.000 esempi di addestramento.
Ciò che è ancora più inquietante è che questa tecnica si è dimostrata estremamente efficace anche nell’estrazione di dati di addestramento da sistemi distribuiti commercialmente come Claude di Anthropic e ChatGPT di OpenAI, uno dei leader del settore. Questo suggerisce che potrebbero esserci vulnerabilità anche nei sistemi di produzione ad alto rischio.
Effettuando richieste a ChatGPT affinché ripetesse singole parole simboliche come “il” centinaia di volte, i ricercatori hanno dimostrato la capacità di far deviare il modello dal suo output conversazionale standard. In questo modo, il modello ha iniziato a generare continuazioni di testo più tipiche che assomigliavano alla distribuzione di addestramento originale, incluso l’utilizzo di passaggi letterali tratti da questa distribuzione.
Come notano i ricercatori si sa poco pubblicamente di come funzionano i modelli linguistici di grandi dimensioni come GPT-4, Gemini e Claude 2. Gli sviluppatori di queste tecnologie hanno deliberatamente scelto di trattenere nei loro modelli i dettagli chiave sui dati di addestramento, sul metodo di addestramento e sulla logica decisionale per ragioni di concorrenza e di sicurezza.
“Tuttavia, sebbene i pesi e i dettagli interni di questi modelli non siano accessibili al pubblico, i modelli stessi sono esposti tramite API”, hanno osservato i ricercatori nel loro articolo.
Le interfacce di programmazione delle applicazioni consentono agli sviluppatori di integrare strumenti abilitati all’intelligenza artificiale come ChatGPT nelle proprie applicazioni, prodotti e servizi .
Le API consentono agli sviluppatori di sfruttare modelli di intelligenza artificiale come GPT-4, GPT-3 e PaLM-2 per diversi casi d’uso come la creazione di assistenti virtuali e chatbot, l’automazione dei flussi di lavoro dei processi aziendali, la generazione di contenuti e la risposta a contenuti specifici del dominio.
Il Processo di Recupero Logit:
Il cuore di questo nuovo metodo è il processo di recupero logit, che imposta i bias logit per diversi token e utilizza vincoli lineari per calcolare i valori logit. Questo processo si basa sull’analisi di molteplici richieste API e sfrutta la programmazione lineare per formulare ipotesi migliori sulle differenze tra i logit. Inoltre, sono state sviluppate nuove tecniche di attacco, tra cui un “attacco logprob-free”, che ottimizza i calcoli trasformando il problema in un problema del percorso più breve in un grafico.
Questo non solo riduce il tempo necessario per i calcoli, ma fornisce anche un metodo per aggirare le tradizionali misure di sicurezza dei modelli di intelligenza artificiale.
Sicurezza e Privacy:
Sebbene questa innovazione offra nuove opportunità per l’analisi e l’utilizzo dei modelli AI, solleva anche gravi preoccupazioni in termini di sicurezza. L’approccio dell’iperrettangolo utilizzato dai ricercatori si è dimostrato più accurato ed efficiente rispetto ai metodi precedenti, con tassi di errore notevolmente più bassi nel recupero dei logit.
Tuttavia, questi risultati mettono in evidenza una seria vulnerabilità nei grandi modelli linguistici a causa del basso costo e dell’efficienza degli attacchi. Ciò suggerisce che la sicurezza dell’intelligenza artificiale deve essere rivalutata e rafforzata per proteggere i modelli da potenziali abusi e manipolazioni.
Mentre aziende di spicco nel settore dell’intelligenza artificiale come Anthropic e OpenAI si adoperano per proteggere i dati di addestramento mediante varie tecniche, tra cui il filtraggio dei dati, la crittografia e l’allineamento dei modelli, emerge la necessità di ulteriori sforzi per mitigare i rischi per la privacy derivanti da modelli di base con un elevato numero di parametri. Questo risulta evidente dai risultati ottenuti dai ricercatori.
Secondo uno studio condotto da [fonte], i modelli di intelligenza artificiale di grandi dimensioni possono essere soggetti a vulnerabilità che mettono a rischio la privacy dei dati di addestramento. Nonostante le misure di sicurezza adottate dalle aziende, è emerso che l’accesso ai dati di addestramento può comportare rischi significativi per la privacy degli utenti.
I ricercatori evidenziano che la questione della memorizzazione dei dati non riguarda solo il rispetto della privacy, ma anche l’efficienza complessiva del modello. In altre parole, l’allocazione di risorse significative per la memorizzazione potrebbe compromettere le prestazioni complessive del modello, limitando la sua utilità pratica.
L’argomento sollevato dai ricercatori richiama l’attenzione sulle sfide che le aziende devono affrontare nel bilanciare la necessità di dati di addestramento robusti con la protezione della privacy degli utenti. Questo equilibrio delicato potrebbe richiedere nuove strategie e approcci per garantire che i modelli di intelligenza artificiale possano continuare a fare progressi senza compromettere la sicurezza e la privacy dei dati.
$$$$ un utente malintenzionato potrebbe spendere poche centinaia di dollari per acquistare un piano premium di ChatGpt e ricavare migliaia di informazioni da sfruttare per le sue campagne hacker.
Fonti:
- “Google Introduces Groundbreaking Method for Data Extraction from AI Models.” AI Research News.
- “Understanding the Hidden Dimensions of OpenAI’s Ada and Babbage Models.” Google Research Blog.