Nel cuore del progresso tecnologico, dove l’intelligenza artificiale sembrava destinata a crescere senza limiti, qualcosa si è inceppato. Le aziende leader del settore, come Google, Anthropic e OpenAI, stanno affrontando una realtà che non avevano previsto: il plateau nelle prestazioni dei loro grandi modelli di linguaggio (LLM). Fino a poco tempo fa, il pensiero dominante era semplice: bastava aumentare la dimensione dei modelli e dei dati per ottenere risultati sempre più sorprendenti. Ma oggi la verità è diversa, e l’industria dell’AI si trova di fronte a una nuova sfida.
Ogni nuova versione dei modelli di linguaggio prometteva miglioramenti rivoluzionari. Ma di recente, le aspettative sono state disattese. Google, per esempio, si aspettava grandi cose dalla nuova versione del suo modello Gemini, ma i risultati non sono stati all’altezza delle ambizioni aziendali. Lo stesso è accaduto a OpenAI con Orion, l’ultimo modello che, nonostante il lungo lavoro di sviluppo, ha mostrato solo lievi miglioramenti rispetto a GPT-4.
Questa situazione ha sorpreso molti. Per anni, la formula era sembrata vincente: più dati, più potenza di calcolo e modelli più grandi equivalevano a prestazioni superiori. Tuttavia, sembra che la strategia di puntare esclusivamente su un’espansione dimensionale non produca più i frutti sperati.
Di fronte a questa nuova realtà, i leader del settore si stanno muovendo verso una nuova direzione: lo scaling dell’inferenza. Un termine tecnico che nasconde una grande verità. In sostanza, anziché cercare di “ingrandire” ulteriormente i modelli, l’idea è di lavorare su come questi elaborano le informazioni in tempo reale.
Ilya Sutskever, co-fondatore di OpenAI, ha sintetizzato perfettamente questo concetto affermando che l’era dello scaling fine a sé stesso è finita. A cosa serve un modello gigantesco se poi non è in grado di gestire le informazioni in modo efficiente? La nuova sfida è quindi quella di rendere i modelli più “intelligenti” durante la fase di inferenza, facendo sì che, in un certo senso, possano “pensare” meglio anziché essere semplicemente più grandi.
Ma c’è un altro problema che pesa sul progresso dei modelli di linguaggio: la qualità dei dati di addestramento. Per anni, i LLM sono stati addestrati su quantità enormi di dati pubblici, spesso estratti da internet. Tuttavia, questi dati hanno dei limiti. Sfruttare solo contenuti pubblicamente accessibili può andare bene fino a un certo punto, ma per fare un vero salto di qualità servono informazioni più specifiche, rilevanti, e forse anche di tipo professionale. Alcuni esperti suggeriscono che dati più ricchi, come quelli derivati da contesti aziendali o ambienti di lavoro reali, potrebbero dare ai modelli il “carburante” di cui hanno bisogno per raggiungere nuovi traguardi.
Non solo quantità, ma anche qualità. È questo il nuovo mantra dell’intelligenza artificiale. Mentre fino a pochi anni fa si poteva pensare di ottenere grandi risultati accumulando dati, oggi emerge la necessità di un’analisi e una supervisione più rigorosa. E questo non può essere fatto solo con il crowdsourcing, che fornisce dati generalizzati ma privi della specificità richiesta per migliorare i modelli. Le aziende, infatti, stanno iniziando a esplorare tecniche avanzate di etichettatura dei dati, coinvolgendo esperti nei processi di selezione e categorizzazione.
La strada da percorrere è tutt’altro che semplice. Google, Anthropic e OpenAI devono imparare a bilanciare l’uso di dati già disponibili con una raccolta più mirata e qualitativamente elevata, che possa sbloccare nuove possibilità per l’AI.
In fondo, questa nuova fase rappresenta una sfida e un’opportunità insieme: come ogni stallo tecnologico, può essere visto come una battuta d’arresto o come l’inizio di una nuova fase di innovazione.