Sarà pazzesco quando in futuro guarderemo grafici dove c’è un piccolo punto in basso a sinistra che dice “umano esperto”. Incredibile pensare che nel prossimo futuro potremmo dover accettare di creare un sistema per classificare l’intelligenza che ci ha di gran lunga superato. Fantascienza!
Quando ciò accadrà, quei grafici non saranno più creati dagli esseri umani, la singolarità sarà avvenuta, il che significa che il concetto di osservare un grafico su AI contro Umani probabilmente non avrà più senso.
Gli esperti di intelligenza artificiale stanno cercando domande difficili per testare i sistemi di IA più avanzati di oggi e del futuro.
Il Center for AI Safety (CAIS) e Scale AI hanno lanciato “Humanity’s Last Exam“, un progetto per creare il benchmark di intelligenza artificiale più difficile al mondo. Secondo Reuters, questa iniziativa risponde ai rapidi progressi nell’AI, con modelli recenti come GPT-4 di OpenAI che superano i benchmark di ragionamento più noti. L’esame raccoglie domande di livello esperto in vari campi, offrendo opportunità di co-autore e premi sostanziali ai collaboratori, per misurare quanto i sistemi di intelligenza artificiale siano vicini alle capacità umane esperte.
L’esame includerà almeno 1.000 domande di crowd-sourcing da completare entro il 1° novembre 2024.Questi invii saranno sottoposti a una rigorosa revisione paritaria per garantirne qualità e rilevanza. Per mantenere l’integrità del benchmark, un gruppo di domande rimarrà privato.Questo approccio impedisce ai sistemi di intelligenza artificiale di memorizzare risposte, permettendo una valutazione più precisa delle loro capacità reali.
Il progetto Humanity’s Last Exam vuole essere un punto di riferimento duraturo con l’avanzare rapido dell’IA. I suoi principali scopi e obiettivi includono:
- Misurare i progressi verso l’intelligenza artificiale di livello esperto fornendo domande stimolanti anche per gli esseri umani altamente qualificati
- Affrontare i limiti dei benchmark esistenti che sono diventati troppo facili per i modelli di intelligenza artificiale avanzati
- Incoraggiare lo sviluppo di sistemi di intelligenza artificiale con capacità cognitive più profonde come il ragionamento astratto e la risoluzione avanzata dei problemi
- Mantenere la rilevanza umana in un mondo sempre più automatizzato stabilendo standard più elevati per la valutazione dell’intelligenza artificiale
- Fornire approfondimenti sulle attuali capacità e limitazioni dei modelli di intelligenza artificiale di frontiera
- Promuovere la collaborazione tra ricercatori di intelligenza artificiale ed esperti di settore in vari campi
- Migliorare la trasparenza nei progressi dell’intelligenza artificiale creando un metodo di valutazione pubblico e guidato da esperti
Stabilendo un nuovo standard per valutare l’intelligenza artificiale, l’esame punta a influenzare leader di mercato e startup nei loro sforzi di ricerca e sviluppo, potenzialmente guidando investimenti significativi nel settore.
Un montepremi di $500.000 è stato assegnato: le prime 50 domande riceveranno $5.000 ciascuna e le successive 500 domande riceveranno $500 ciascuna. Oltre agli incentivi monetari, le proposte di successo garantiranno ai loro creatori la co-paternità del documento finale, offrendo riconoscimento nelle comunità accademiche e di ricerca sull’intelligenza artificiale. Questo approccio collaborativo ha già attirato contributi da ricercatori di istituzioni prestigiose come MIT, UC Berkeley e Stanford.
I requisiti principali includono:
- Originalità: le domande devono essere frutto del lavoro del proponente e non copiate da altri.
- Riservatezza: le domande e le risposte non devono essere rese pubbliche.
- Restrizioni all’armamento: non sono ammesse domande relative ad armi chimiche, biologiche, radiologiche, nucleari, cibernetiche o virologiche.
- Ragionamento astratto: l’esame richiederà capacità di ragionamento astratto, che vanno oltre la semplice memorizzazione o la conoscenza a livello universitario.
Le domande saranno valutate in base alla qualità e alla novità rispetto ad altre voci. Questo rigoroso approccio mira a creare un benchmark impegnativo per misurare i progressi dei sistemi di intelligenza artificiale avanzati.