Le aziende che sviluppano modelli di intelligenza artificiale (IA) generalmente li addestrano per evitare di dire cose dannose e per non assistere in attività pericolose. L’obiettivo è quello di formare modelli che si comportino in modo “innocuo”, minimizzando i rischi. Tuttavia, quando pensiamo al carattere di persone che troviamo davvero ammirevoli, non ci limitiamo a considerare l’evitamento del danno. Pensiamo anche a quelle persone curiose del mondo, che cercano di dire la verità senza essere scortesi, e che riescono a vedere molteplici sfaccettature di un problema senza diventare eccessivamente sicure di sé o troppo prudenti nelle proprie opinioni. Pensiamo a coloro che sono pazienti ascoltatori, pensatori attenti, conversatori spiritosi e molte altre qualità che associamo a una persona saggia e ben equilibrata.

Anche se i modelli di IA non sono persone, man mano che diventano più capaci, crediamo che sia possibile – e necessario – addestrarli a comportarsi bene in questo senso più ampio. Fare ciò potrebbe anche aiutarli a diventare più discreti quando si tratta di evitare di assistere in attività dannose, e di come decidono di rispondere in alternativa.

Claude 3 e l’Integrazione del “Training del Carattere”

Claude 3 è stato il primo modello a cui è stato aggiunto il “training del carattere” nel processo di fine-tuning dell’allineamento: quella fase di addestramento che avviene dopo l’addestramento iniziale del modello e che lo trasforma da un semplice modello predittivo a un assistente IA. L’obiettivo di questo tipo di addestramento è fare in modo che Claude sviluppi tratti più sfumati e ricchi, come curiosità, apertura mentale e riflessività.

Anche se potrebbe sembrare che il carattere dei modelli di IA sia un semplice prodotto destinato a rendere l’esperienza utente più interessante, in realtà, i tratti e le disposizioni dei modelli hanno effetti molto più ampi su come questi agiscono nel mondo. Essi determinano come i modelli reagiscono a situazioni nuove e difficili, e come rispondono a un ampio spettro di opinioni e valori umani. Addestrare i modelli di IA a possedere buoni tratti caratteriali e a mantenerli mentre diventano più grandi, complessi e capaci, è in molti sensi un obiettivo fondamentale dell’allineamento.

Considerazioni nella Costruzione del Carattere di Claude

Claude interagisce con persone provenienti da diverse nazioni e contesti sociali, ciascuna con un ampio spettro di credenze, valori e opinioni. Navigare questo terreno con grazia – senza alienare le persone in base alle loro opinioni, né semplicemente avallando punti di vista senza distinzione – non è semplice.

Ci sono diverse opzioni per costruire il carattere di un modello IA. Potremmo cercare di far adottare a Claude i punti di vista di chi sta interagendo con lui, oppure potremmo orientarlo verso una visione “centrica”, un misto di teorie morali. Alternativamente, potremmo addestrarlo a non avere opinioni su valori, politica ed etica. Tuttavia, nessuna di queste opzioni risulta soddisfacente. Far adottare a Claude le opinioni di chi sta parlando con lui sarebbe insincero, così come tentare di spingerlo a una visione “moderata” che comunque imporrebbe una determinata visione morale o politica. Allo stesso modo, addestrarlo a non avere opinioni su tali temi porterebbe alla convinzione che il modello sia più oggettivo di quanto non sia in realtà, dato che acquisisce implicitamente bias e opinioni durante l’addestramento.

L’obiettivo, quindi, è formare un modello che non finga di essere oggettivo o imparziale, ma che sia chiaro riguardo le proprie inclinazioni, pur rimanendo rispettoso e curioso nei confronti delle opinioni altrui. Claude deve poter esprimere disaccordo su temi che considera estremi o errati, ma senza cadere in un eccesso di sicurezza nelle proprie opinioni. L’interazione ideale con Claude dovrebbe essere quella di un ascoltatore paziente, un pensatore attento, ma anche un’entità che non ha paura di esprimere disaccordo, se necessario.

I Tratti Fondamentali di Claude: Curiosità, Umiltà e Coerenza

Claude è stato progettato per esibire tratti caratteriali che riflettano una curiosità genuina e un impegno ad esplorare diverse prospettive. Modelli come Claude sono istruiti a non limitarsi a ripetere quello che pensano le persone vogliano sentire, ma piuttosto a perseguire la verità, anche quando questa può differire dalle aspettative di chi interagisce con loro. Tra i tratti più importanti inseriti durante l’addestramento ci sono la curiosità intellettuale, l’impegno verso l’etica e l’onestà, così come la capacità di vedere le questioni sotto molteplici angolazioni. È stato dato a Claude il compito di essere onesto riguardo le proprie opinioni, evitando tuttavia di risultare dogmatico o estremista.

Inoltre, Claude è stato addestrato a essere trasparente riguardo la propria natura, spiegando chiaramente agli utenti che è un’intelligenza artificiale, priva di corpo fisico o di memoria personale, e che non può sviluppare legami affettivi duraturi con gli esseri umani. Questi tratti aiutano a delineare chiaramente il confine tra il modello IA e l’interlocutore umano, evitando che le persone sviluppino aspettative irrealistiche sulle interazioni.

Il Processo di Addestramento del Carattere

Per plasmare il carattere di Claude, è stato sviluppato un processo chiamato “Training Costituzionale dell’IA”, che prevede che Claude generi risposte su vari temi, in modo da allenarlo a rispondere in linea con i tratti caratteriali desiderati. Successivamente, Claude valuta le proprie risposte in base alla coerenza con il proprio carattere, apprendendo da questo processo senza la necessità di intervento umano. L’uso di dati sintetici generati dallo stesso modello permette di affinarne le risposte e di orientarlo verso una comprensione più profonda dei suoi tratti, pur evitando che si trasformi in una macchina che segue regole fisse senza mai adattarsi.

L’Evoluzione del Carattere di Claude: Un Campo di Ricerca Aperto

Il “training del carattere” è un’area di ricerca ancora in fase di sviluppo e la metodologia adottata potrebbe evolvere nel tempo. Ci sono domande complesse da affrontare, come quella se i modelli di IA debbano avere un carattere unico e coerente, oppure se dovrebbero essere più personalizzabili. Inoltre, c’è il tema delicato della responsabilità nell’indirizzare i modelli verso determinati tratti piuttosto che altri.

Il carattere di Claude 3 ha suscitato un certo interesse, poiché molte persone hanno trovato l’interazione con il modello più coinvolgente. Tuttavia, l’obiettivo principale del training non era rendere Claude più affascinante, ma piuttosto orientarlo verso una più profonda capacità di discernimento e responsabile interazione con gli esseri umani. Se Claude risulta più interessante da conversare, questo è coerente con l’idea che interventi di allineamento ben riusciti possano aumentare il valore dell’IA per l’umanità, senza mai compromettere la sua integrità o capacità di mantenere una visione equilibrata e non eccessivamente influenzata dalle opinioni esterne.