Jacob Steinhardt, professore assistente all’UC Berkeley, e Sarah Schwettmann, ricercatrice al MIT, hanno recentemente co-fondato Transluce, un laboratorio di ricerca senza scopo di lucro che si concentra sull’interpretabilità dell’intelligenza artificiale (IA). Questa iniziativa mira a migliorare la comprensione dei modelli di IA attraverso tecniche di interpretabilità meccanicistica, che cercano di spiegare come questi sistemi complessi funzionano internamente.

Panoramica di Transluce

  • Fondatori: Jacob Steinhardt e Sarah Schwettmann.
  • Tipo: Organizzazione no-profit 501(c).
  • Focus: Comprendere i modelli di IA utilizzando tecniche di interpretabilità meccanicistica.

Steinhardt ha sottolineato la necessità di analisi scalabili e trasparenti delle capacità e dei rischi dell’IA, specialmente man mano che queste tecnologie influenzano sempre più la società. Ha affermato: “I sistemi di IA complessi di oggi sono difficili da comprendere; nemmeno gli esperti possono prevedere in modo affidabile il loro comportamento una volta implementati”. Questo riflette una preoccupazione più ampia all’interno della comunità dell’IA riguardo alla natura opaca di molti modelli avanzati.

Contributi dei Fondatori

  • Jacob Steinhardt:
  • Guida un importante gruppo di ricerca sull’IA all’UC Berkeley.
  • Ha scritto opere fondamentali sulla sicurezza dell’IA e sul benchmarking, come “Concrete Problems in AI Safety” e il benchmark MMLU per valutare le capacità dell’IA.
  • Sarah Schwettmann:
  • Ha sviluppato MAIA, un agente automatizzato per l’interpretabilità al MIT CSAIL, capace di condurre esperimenti autonomi per interpretare i modelli di IA.
  • Le capacità di MAIA includono la generazione di ipotesi e il perfezionamento della sua comprensione attraverso analisi iterative, migliorando così l’interpretabilità dei sistemi di IA complessi.

Transluce mira a creare tecnologie aperte e scalabili che facilitino una comprensione più profonda dei sistemi di IA. Il lavoro del laboratorio è destinato a contribuire in modo significativo al campo della sicurezza dell’IA, consentendo migliori audit e monitoraggi di questi sistemi prima della loro implementazione in applicazioni del mondo reale.