Il 21 maggio 2024, Anthropic ha annunciato un avanzamento significativo nella comprensione del funzionamento interno dei modelli di intelligenza artificiale (IA). La ricerca si è concentrata su Claude Sonnet, uno dei modelli di linguaggio di grandi dimensioni attualmente in uso. Questo studio rappresenta il primo sguardo dettagliato all’interno di un modello di linguaggio moderno e di grado produttivo, con potenziali implicazioni per la sicurezza e l’affidabilità dei modelli di IA.