La frase di Karpathy suona come una delle solite provocazioni della Silicon Valley: “Stiamo entrando in un nuovo paradigma del calcolo, con i modelli linguistici che agiscono come CPU, usando token invece di byte, e una finestra di contesto invece della RAM.” Il tutto condito da una nuova buzzword, ovviamente, LMOS – Language Model Operating System. Ma sotto la scorza da keynote, c’è qualcosa che merita di essere considerato seriamente. Karpathy, come spesso accade, non gioca per il clickbait, ma per la preveggenza.
Nel suo modello mentale, CPU diventa LLM, Byte diventa Token, RAM diventa Context Window, Sistema Operativo diventa LMOS. È una traslazione quasi poetica, se non fosse che sta già accadendo. Non parliamo più solo di software che gira su hardware, ma di linguaggio che gira su contesto, un flusso continuo di simboli che sostituiscono lo spazio fisico e binario del passato. E se all’inizio può sembrare solo un gioco di metafore, è nel dettaglio computazionale che questa rivoluzione diventa concreta.
Il concetto di “flat token economy” è la vera mina sotto la vecchia architettura. Oggi, che tu chieda a un LLM di scrivere una poesia o risolvere un problema di fisica quantistica, il consumo computazionale è identico: è funzione della lunghezza del testo, non della sua complessità semantica. Una distorsione quasi marxiana del valore: l’operaio (l’LLM) non è più pagato per la difficoltà del compito, ma per il numero di battute. Non importa se produce Shakespeare o una lista della spesa, la macchina costa uguale. E questo ribalta completamente l’economia della computazione.
In questo scenario, i concetti di “ottimizzazione” e “efficienza” assumono nuovi significati. Il collo di bottiglia non è più la potenza del chip ma la lunghezza della sequenza. Non serve più un processore più veloce, ma un contesto più ampio. Non si tratta più di velocizzare l’elaborazione, ma di estendere la finestra attraverso cui la macchina “pensa”. Il futuro dei dati non è nella quantità, ma nella capacità di mantenerli a mente, token dopo token.
Il passo successivo, e qui Karpathy gioca con la nostalgia da garage di Cupertino, è l’arrivo del LMOS. Non un sistema operativo in senso classico, ma un’interfaccia totale tra l’essere umano e il modello. Un’astrazione che ci solleva dai file, dalle directory, dalle icone: parli direttamente con il sistema, che capisce, ricorda, collega. La GUI diventa conversazionale, l’interfaccia è la lingua, e il desktop è la tua finestra di contesto.
Il rischio? Ovviamente c’è. Stiamo costruendo architetture interamente dipendenti da modelli che non comprendiamo pienamente, né possiamo ispezionare fino in fondo. La trasparenza viene scambiata con la potenza, la comprensibilità con la magia. Ma è un compromesso che sembra inevitabile, come lo fu passare dal terminale al mouse, dal mainframe al PC.
E quindi sì, magari i CPU non spariranno del tutto, ma saranno periferiche dell’intelligenza, non il suo cuore. La memoria volatile verrà rimpiazzata dalla capacità contestuale, e le istruzioni binarie diventeranno prompt. Non si tratta di futuro remoto: questa transizione è già in atto, silenziosa ma irreversibile. LMOS non è un sogno, è il prossimo strato del nostro modo di pensare digitalmente.
E mentre le startup corrono a realizzare “prompt-native apps”, mentre Nvidia continua a stampare chip come se fossero i nuovi barili di petrolio, il paradigma è già cambiato. Chi insiste a pensare in byte, è già fuori mercato.
Andrej Karpathy è uno scienziato informatico slovacco-canadese che ha lavorato come direttore dell’intelligenza artificiale e della visione del pilota automatico presso Tesla. Ha co-fondato e precedentemente lavorato presso OpenAI, dove si è specializzato in deep learning e visione artificiale.