Nel panorama tecnologico, il progresso verso l’intelligenza artificiale generale (AGI) è costellato di trionfi straordinari e controversie altrettanto rilevanti. Recentemente, OpenAI ha portato avanti una campagna con la quale vantava le capacità matematiche avanzate del modello GPT-3.5, che ha stupito molti con il suo apparente dominio nel risolvere una serie di problemi matematici complessi definiti con il benchmark FrontierMath, che trovate in allegato. Questi problemi, pensati per mettere alla prova le capacità di risoluzione matematica di modelli linguistici (LLM), sono stati etichettati come indipendenti e unici, con l’intento di dimostrare l’evoluzione delle capacità dei modelli di OpenAI in un ambito considerato fino a quel momento particolarmente arduo per l’intelligenza artificiale.

Tuttavia, un dettaglio che era rimasto nell’ombra in precedenza, è emerso in modo sorprendente grazie a una dichiarazione pubblica di Tamay Besiroglu, il fondatore di Epoch.AI, l’azienda che ha creato il benchmark FrontierMath. In un thread su Reddit, Besiroglu ha svelato un aspetto poco noto: OpenAI non solo ha finanziato Epoch.AI, ma ha avuto accesso al benchmark FrontierMath molto prima che iniziasse l’allenamento del modello GPT-3.5. Eppure, secondo l’accordo verbale, OpenAI avrebbe giurato di non utilizzare quei dati per allenare il modello. Una dichiarazione che solleva dubbi etici e tecnici su come OpenAI ha gestito le informazioni a sua disposizione.

Questa vicenda ha portato a un acceso dibattito sulla trasparenza dei processi di addestramento dei modelli di intelligenza artificiale, mettendo in discussione non solo la gestione dei dati, ma anche il livello di integrità nell’affrontare un’area così complessa come la matematica avanzata. Il pubblico, e non solo i professionisti del settore, ha cominciato a interrogarsi sulla reale originalità dei risultati ottenuti da GPT-3.5, dato che il benchmark in questione sembrava essere stato già familiarmente in possesso di OpenAI ben prima che il modello fosse messo alla prova. Se da un lato questa vicenda mette in luce una potenziale “contaminazione dei dataset”, dall’altro solleva anche il problema della percezione pubblica riguardo ai progressi nelle capacità matematiche dei modelli AI. Come sottolineato dal prof. Yann LeCun, noto per il suo contributo nell’ambito dell’intelligenza artificiale, quanto accaduto “profuma molto di imbroglio”, un commento che riassume efficacemente l’interrogativo sull’etica di simili pratiche.

In un contesto in cui il training dei modelli LLM è immensamente costoso e i risultati hanno un impatto diretto sulla reputazione delle aziende, la gestione dei dataset e la loro trasparenza diventano elementi cruciali. La contaminazione di un dataset, ossia l’utilizzo di dati non trasparenti o addirittura rubati, mina la validità delle prestazioni dichiarate da un modello. Un modello di linguaggio che è stato allenato con dati a cui ha avuto accesso in modo esclusivo, o peggio, che ha avuto un vantaggio informativo rispetto agli altri, rischia di non rappresentare il risultato di un processo di apprendimento autentico. In altre parole, non sarebbe una dimostrazione di capacità avanzate, ma semplicemente una ripetizione di conoscenza preesistente.

Il fenomeno della contaminazione dei dataset non è un argomento nuovo, ma è sempre più importante nel momento in cui si trattano modelli che interagiscono con problemi altamente complessi, come quelli proposti da FrontierMath. La capacità di risolvere questi problemi non è solo una questione di abilità matematica, ma anche di come un modello riesca a sfruttare i dati che ha a disposizione per formulare risposte. Il modello GPT-3.5, in questo caso, potrebbe aver avuto un “vantaggio sleale”, risolvendo i problemi non per una capacità intrinseca di comprensione o calcolo, ma per la familiarità con i dati sottostanti.

Le implicazioni di questi sviluppi sono significative, non solo per OpenAI ma per l’intero settore degli LLM e della ricerca sull’AGI. Se un’azienda può accedere a dataset esclusivi e utilizzarli per allenare i propri modelli, questo potrebbe alterare il panorama competitivo in modo sostanziale, dando un’ingiustificata precedenza a chi ha accesso a tali risorse. Allo stesso tempo, i ricercatori e i professionisti del settore sono chiamati a rivedere le metodologie di testing e validazione per evitare che comportamenti simili possano danneggiare la reputazione di interi modelli o fare passi indietro nell’evoluzione di soluzioni AI più etiche e trasparenti.

La comunità scientifica e i professionisti devono riflettere su questi casi e stabilire nuove linee guida per garantire che i progressi siano il risultato di un lavoro autentico, senza ricorrere a pratiche che potrebbero minare la fiducia nella tecnologia. Senza trasparenza, infatti, non c’è vera innovazione, ma solo l’illusione di un progresso che non ha radici solide.

Rivista.AI ringrazie NicolaGrandis per essere spunto continuo di riflessioni.