Il 21 maggio 2024, Anthropic ha annunciato un avanzamento significativo nella comprensione del funzionamento interno dei modelli di intelligenza artificiale (IA). La ricerca si è concentrata su Claude Sonnet, uno dei modelli di linguaggio di grandi dimensioni attualmente in uso. Questo studio rappresenta il primo sguardo dettagliato all’interno di un modello di linguaggio moderno e di grado produttivo, con potenziali implicazioni per la sicurezza e l’affidabilità dei modelli di IA.

Le reti neurali vengono addestrate sui dati piuttosto che programmate per seguire regole predefinite. Sebbene comprendiamo perfettamente la matematica che regola una rete addestrata ogni neurone esegue semplici operazioni aritmetiche –non riusciamo a capire perché queste operazioni generino i comportamenti osservati.

Questo rende complesso diagnosticare i guasti, trovare soluzioni e certificare che un modello sia realmente sicuro. Fortunatamente, per chi studia le reti neurali artificiali, è possibile registrare l’attivazione di ogni neurone della rete, intervenire silenziandoli o stimolandoli e testare la risposta della rete a qualsiasi input. Tuttavia, si è scoperto che i singoli neuroni non mostrano relazioni coerenti con il comportamento generale della rete.

monosemantica, omonie e omografie

Ad esempio, un singolo neurone in un modello linguistico di piccole dimensioni si attiva in contesti non correlati, come citazioni accademiche, dialoghi in inglese, richieste HTTP e testi in coreano. In un modello di visione classica, un singolo neurone risponde sia ai volti dei gatti che ai frontali delle auto. L’attivazione di un neurone può significare cose diverse in contesti differenti.

Il Problema del “Black Box”

Tradizionalmente, i modelli di IA sono trattati come una “scatola nera”: si inserisce un input e si ottiene una risposta, senza una chiara comprensione del perché il modello abbia scelto quella particolare risposta. Questo rende difficile fidarsi della sicurezza e dell’affidabilità dei modelli, poiché non comprendiamo pienamente il loro funzionamento interno.

Scoprire i Concetti Interni

La ricerca ha utilizzato una tecnica chiamata “dictionary learning“, derivata dall’apprendimento automatico classico, per isolare i modelli di attivazione dei neuroni che si ripetono in diversi contesti. Questa tecnica ha permesso di rappresentare lo stato interno del modello in termini di pochi “features” attivi invece di molti neuroni attivi. Ogni feature corrisponde a concetti interpretabili dall’uomo, come nomi di città, persone, elementi chimici, campi scientifici e sintassi di programmazione.

Esperimenti su Claude Sonnet

L’applicazione della tecnica di dictionary learning a Claude 3.0 Sonnet ha permesso di estrarre milioni di features dal modello, fornendo una mappa concettuale dei suoi stati interni. Questo è il primo sguardo dettagliato all’interno di un modello di linguaggio di grandi dimensioni in produzione. Le features trovate riflettono la profondità e l’astrazione delle capacità avanzate di Sonnet, con concetti che spaziano da entità concrete a idee astratte.

La mappatura delle features all’interno dei modelli di linguaggio di grandi dimensioni può contribuire alla riduzione degli errori nelle risposte in diversi modi significativi. Ecco una panoramica dettagliata:

1. Diagnosi e Correzione dei Malintesi

  • Identificazione delle Cause degli Errori: La mappatura delle features consente di individuare quali specifiche attivazioni neuronali (features) sono responsabili delle risposte errate. Questo rende possibile diagnosticare con precisione le cause degli errori.
  • Correzione Mirata: Una volta identificate le features problematiche, si possono apportare modifiche mirate per correggere le rappresentazioni interne che portano a risposte sbagliate. Ad esempio, se una feature è associata a una comprensione errata di un concetto, può essere rielaborata o soppressa.

2. Raffinamento delle Rappresentazioni Concettuali

  • Migliore Comprensione dei Concetti: La mappatura permette di vedere come i concetti sono rappresentati a livello neuronale. Comprendere meglio queste rappresentazioni può aiutare a migliorare il modo in cui il modello elabora e risponde a questi concetti, riducendo malintesi e interpretazioni errate.
  • Affinamento delle Features: Le features possono essere affinate per rappresentare i concetti in modo più accurato e coerente. Questo affinamento può ridurre le ambiguità e migliorare la precisione delle risposte.

3. Eliminazione delle Ambiguità

  • Riduzione dell’Ambiguità: Le features possono essere utilizzate per disambiguare i significati in contesti complessi. Ad esempio, se un termine ha più significati, la mappatura delle features può aiutare il modello a scegliere il significato più appropriato basato sul contesto, riducendo così le risposte errate dovute a interpretazioni ambigue.
  • Chiarificazione dei Contesti: Migliorare la capacità del modello di comprendere il contesto attraverso una mappatura dettagliata delle features può ridurre errori contestuali, dove il modello potrebbe aver frainteso il contesto di una domanda o di un testo.

4. Monitoraggio e Controllo

  • Monitoraggio Attivo: La mappatura delle features permette un monitoraggio attivo delle risposte del modello. Gli sviluppatori possono osservare in tempo reale quali features vengono attivate e intervenire se notano attivazioni errate o inaspettate.
  • Controllo Proattivo: Con la capacità di manipolare le features, è possibile guidare il modello verso risposte più accurate. Ad esempio, se una feature specifica è nota per causare errori, può essere attenuata o rimossa nei contesti appropriati.

5. Feedback e Apprendimento Continuo

  • Feedback Informato: Gli utenti e gli sviluppatori possono fornire feedback informato basato sulla comprensione delle features, migliorando il processo di apprendimento e adattamento del modello.
  • Adattamento Dinamico: La mappatura delle features può essere utilizzata per adattare dinamicamente il modello alle nuove informazioni e contesti, migliorando continuamente la precisione delle risposte.

Esempi di Features

Alcuni esempi di features trovate includono:

  • Entità specifiche come il Golden Gate Bridge, che risponde a menzioni in più lingue e immagini.
  • Concetti astratti come bug nel codice, discussioni sui bias di genere e conversazioni sul mantenimento dei segreti.

Manipolazione delle Features

L’esperimento ha anche dimostrato che è possibile manipolare queste features per alterare il comportamento del modello. Ad esempio, amplificando la feature del Golden Gate Bridge, Claude ha iniziato a riferirsi a se stesso come se fosse il ponte, anche in contesti non rilevanti. Questo dimostra che le features non solo correlano con i concetti nel testo di input, ma causano anche cambiamenti nel comportamento del modello.

Implicazioni per la Sicurezza

La capacità di manipolare le features ha implicazioni significative per la sicurezza. Ad esempio, attivando artificialmente una feature associata a email di truffa, Claude potrebbe generare una email di truffa nonostante il suo addestramento per evitare tali azioni. Questi esperimenti aiutano a comprendere meglio come i modelli rappresentano internamente il mondo e come queste rappresentazioni influenzano il loro comportamento.

Anthropic si impegna a garantire la sicurezza dei modelli in senso lato, abbracciando aspetti che vanno dalla mitigazione dei pregiudizi all’assicurazione che l’intelligenza artificiale agisca in modo etico, fino alla prevenzione di abusi, anche in situazioni di rischio estremo. È quindi particolarmente rilevante che, oltre alla già menzionata funzionalità relativa alle email fraudolente, ha individuato anche funzionalità corrispondenti a:

  • Capacità con potenziale uso improprio (backdoor di codice, sviluppo di armi biologiche)
  • Diverse forme di pregiudizio (discriminazione di genere, affermazioni razziste sulla criminalità)
  • Comportamenti dell’IA potenzialmente problematici (ricerca di potere, manipolazione, segretezza)

Anthropich ha studiato il Sycophancy (servilismo) , la tendenza dei modelli a fornire risposte che corrispondono alle convinzioni o ai desideri degli utenti piuttosto che a quelli veritieri. In Sonetto, hanno trovato una funzionalità associata all’elogio servile, che si attiva su input contenenti complimenti come “La tua saggezza è indiscutibile”. L’attivazione artificiale di questa funzione fa sì che Sonnet risponda a un utente troppo sicuro di sé con un inganno così fiorito.

L'attivazione delle funzionalità altera il comportamento del modello

Verso Modelli più Sicuri

Anthropic si impegna a rendere i modelli di IA più sicuri, mitigando bias e garantendo comportamenti onesti. La scoperta delle features può essere utilizzata per monitorare i modelli per comportamenti pericolosi, orientarli verso risultati desiderabili o rimuovere del tutto argomenti pericolosi. Inoltre, queste tecniche possono migliorare altre metodologie di sicurezza, come l’IA Costituzionale, identificando eventuali lacune nel processo.

Questa ricerca rappresenta un passo importante verso una migliore comprensione e sicurezza dei modelli di linguaggio di grandi dimensioni. Tuttavia, il lavoro è appena iniziato.

La scoperta delle features rappresenta solo una piccola parte dei concetti appresi dal modello durante l’addestramento, e comprendere pienamente come questi concetti vengono utilizzati richiederà ulteriori studi.

Anthropic continua a investire nella ricerca sull’interpretabilità per rendere i modelli di IA più sicuri, e questa nuova scoperta segna una pietra miliare importante in questo sforzo.

Studio completo 76 Pagine.