La teoria dietro i Modelli di Concetto Esteso (LCM) potrebbe sembrare, a prima vista, una di quelle idee che nascono al Caffè BAR dei Daini, mentre qualcuno rovescia il caffè sul giornale e un altro cerca disperatamente un tovagliolo. Immaginate uno di quei momenti in cui la conversazione si sposta dalla politica al senso della vita e poi, senza preavviso, qualcuno menziona un nuovo approccio all’intelligenza artificiale. Così, più o meno, potremmo introdurre questo argomento.
I Modelli di Concetto Esteso, o LCM, sono come quegli ospiti misteriosi che arrivano a una festa con un completo impeccabile e un accento leggermente ambiguo. Si distinguono dai Modelli Linguistici Estesi (LLM) per il loro rifiuto di parlare in parole. LCM preferisce i concetti, come se fossero artisti che dipingono emozioni piuttosto che oggetti. Funzionano in uno spazio di rappresentazione ad alta dimensione, come se le parole non fossero abbastanza per esprimere le loro idee.
La loro architettura è progettata per operare a un livello più astratto. Non si preoccupano delle parole o delle frasi specifiche, ma di ciò che queste rappresentano, come chi scrive poesie senza preoccuparsi della rima. Usano codificatori chiamati SONAR, il che suona piuttosto marittimo, ma in realtà hanno più a che fare con l’idea di navigare nell’oceano dei significati piuttosto che in quello delle lettere.
Ma cosa fanno realmente? Beh, immaginate di dover predire la prossima frase in una conversazione. Un LCM non pensa ai singoli termini ma cerca di intuire l’essenza del pensiero successivo. Funzionano con architetture che potremmo definire una torre o due torri, un po’ come un film di fantascienza. Una di queste versioni divide il compito tra capire il contesto e generare la risposta, mentre l’altra fa tutto insieme, come un prestigiatore che mescola le carte senza che nessuno se ne accorga.
Certo, i LCM non sono perfetti. Hanno difficoltà con l’ambiguità semantica, un po’ come chi cerca di interpretare il tono di un messaggio scritto senza emoji. Generare risposte valide in questo spazio ad alta dimensione è un problema complesso, quasi filosofico. Tuttavia, il loro potenziale è evidente, come un quadro astratto che lascia intravedere un significato nascosto.
Le sperimentazioni hanno dimostrato che i LCM sono molto bravi a generalizzare. Possono affrontare lingue e modalità diverse senza bisogno di essere addestrati specificamente su ciascuna di esse. Questo li rende adattabili e versatili, come quegli amici che riescono a integrarsi perfettamente in qualsiasi gruppo.
Per ora, il futuro dei LCM è ancora in costruzione. Le sfide includono l’espansione oltre i 70 miliardi di parametri, la creazione di nuove strategie di generazione e il miglioramento degli algoritmi di ricerca. Tuttavia, il codice sorgente è stato reso disponibile, invitando chiunque sia interessato a contribuire.
In definitiva, i LCM potrebbero rappresentare un cambiamento di paradigma nella modellazione del linguaggio, un po’ come passare dalla radio ai podcast. E proprio come nei podcast, quello che conta davvero è la capacità di raccontare storie che riescano a catturare l’immaginazione e a farci dimenticare, almeno per un momento, che stiamo solo ascoltando parole.
Paper GitHub Page. All credit for this research goes to the researchers of this project