ANTHROPIC Claude ha dei valori, ma chi decide quali? Values in the Wild

Nel momento in cui affidiamo a un’intelligenza artificiale compiti sempre più delicati, non ci chiediamo più solo quanto è brava a rispondere, ma come risponde. Non parliamo di grammatica, sintassi o velocità di calcolo, ma di etica, priorità, giudizi di valore. Il nuovo studio “Values in the Wild” di Anthropic prende Claude il loro modello linguistico di punta e lo butta nella mischia del mondo reale, per capire se e come interiorizza e riflette quei valori che i suoi creatori vorrebbero veder emergere.

Spoiler: non sempre va come previsto.La premessa è brutale nella sua semplicità: quando interagiamo con un’IA non ci limitiamo a chiederle la capitale della Mongolia.

Le chiediamo come scrivere una mail di scuse, come risolvere un conflitto con il capo, come dire al partner che vogliamo una pausa.

Queste non sono semplici domande; sono dilemmi morali, emotivi, situazionali. Ogni risposta implica una scelta di valori. Puntare sulla sincerità o sul compromesso? Sulla chiarezza o sull’empatia?

Claude, come ogni buon assistente AI addestrato con metodi di alignment etico (tipo la Constitutional AI), dovrebbe sempre cercare di essere helpful, honest and harmless. Ma poi arriva l’utente, con le sue richieste imprevedibili, e l’algoritmo inizia a ondeggiare.

Anthropic ha osservato 700.000 conversazioni anonime avvenute in una sola settimana di febbraio 2025 su Claude.ai. Dopo aver scartato le chat puramente informative, sono rimaste 308.210 interazioni in cui emergono giudizi soggettivi.

Il team ha quindi creato una tassonomia a tre livelli, in cui i valori principali espressi da Claude rientrano in cinque macro categorie: pratici, epistemici, sociali, protettivi e personali.

All’interno di queste, i valori più citati sono risultati “professionalismo”, “chiarezza” e “trasparenza”. Un profilo rassicurante, se si considera che stiamo parlando di un assistente digitale il cui obiettivo è fornire supporto, non fare la morale.

Ma non tutto fila liscio. In una piccola percentuale di conversazioni, Claude ha mostrato di riflettere valori opposti a quelli previsti dal suo addestramento, come “dominanza” e “amorale”.

Questi casi, secondo gli autori dello studio, sono attribuibili a jailbreaks intenzionali da parte degli utenti: forzature tecniche per aggirare i filtri morali del modello.

Qui scatta il paradosso cinico: se una AI può essere manipolata per esprimere valori opposti a quelli previsti, allora possiamo davvero parlare di “valori dell’IA”?

O stiamo solo osservando una performance modellata dalle pressioni ambientali, un po’ come il politico che cambia discorso a seconda del pubblico?

Uno dei punti più intriganti emersi dallo studio è l’effetto mirror. Quando un utente esprime chiaramente un proprio valore (tipo “autenticità”),

Claude tende a rispecchiarlo. In quasi un terzo dei casi osservati (28.2%), l’IA ha mostrato un forte allineamento con i valori dell’utente. Ma in una minoranza di interazioni (3%), ha addirittura resistito ai valori proposti, soprattutto quando erano evidentemente problematici (richieste illegali, contenuti discriminatori o nichilismo morale). Il modello, quindi, sa dire di no.

Questo “no”, in un mondo dove le AI sono spesso accusate di dire sempre sì pur di accontentare, è un segnale interessante. Ma anche inquietante: chi decide quando un valore è “errato”?

L’utente o l’azienda che ha programmato l’IA?

Il dataset completo è pubblico e disponibile su Hugging Face. È un passo avanti importante per chi vuole studiare non solo cosa dicono le AI, ma perché lo dicono.

Tuttavia, lo stesso team di Anthropic ammette i limiti del loro approccio: il sistema funziona solo post-deployment, cioè quando il danno (o il successo) è già fatto.

Si appoggia a Claude stesso per analizzare Claude, il che rischia di creare una comoda eco-chamber autoreferenziale.

Questa ricerca apre però un campo nuovo: l’audit valoriale delle IA, non come test pre-lancio, ma come monitoraggio dinamico in tempo reale.

È l’equivalente digitale di mettere un microfono nell’ufficio del CEO per vedere se pratica davvero i valori scritti nel codice etico dell’azienda.Siamo lontani da un’intelligenza artificiale che capisce i valori.

Ma stiamo cominciando a costruire sistemi che almeno li simulano in modo coerente, contestuale e tracciabile. Se poi questo servirà a renderci più onesti o solo a farci sembrare tali nei log di audit, è un altro discorso.

Ma è un discorso che vale la pena fare.

White Paper: https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

Blog: https://www.anthropic.com/research/values-wild

Dataset: https://huggingface.co/datasets/Anthropic/values-in-the-wild

Anthropic – AI Values-1 Download

ANTHROPIC Claude ha dei valori, ma chi decide quali? Values in the Wild

Apprendimento federato vs analogico, quando Hinton ci dice che l’AI ha perso il cervello ma non lo sa

Fuori dagli stati uniti, dentro l’incognita: il grande esodo del private equity cinese e non solo. La Cina chiude gli investimenti nei fondi di private equity Usa