Physical Intelligence (π) : viviamo in un’epoca di rivoluzione tecnologica: l’ultimo decennio ha visto emergere assistenti AI pratici, sistemi in grado di generare immagini e video fotorealistici e modelli capaci di prevedere la struttura delle proteine. Eppure, nonostante tutti questi progressi, l’intelligenza umana supera ancora drammaticamente l’intelligenza artificiale nel mondo fisico. Per parafrasare il paradosso di Moravec, vincere una partita a scacchi o scoprire un nuovo farmaco rappresentano “problemi facili” per l’AI, mentre piegare una camicia o pulire un tavolo richiede la risoluzione di alcuni dei problemi ingegneristici più complessi mai concepiti. Per costruire sistemi AI dotati della versatilità fisica che possediamo, è necessario un nuovo approccio: dobbiamo rendere i sistemi AI “incarnati” affinché possano acquisire intelligenza fisica.

Negli ultimi otto mesi, Physical Intelligence ha sviluppato un modello di robot generale chiamato π0 (pi-zero). Credono che questo rappresenti un primo passo verso l ‘obiettivo a lungo termine di sviluppare un’intelligenza fisica artificiale, affinché gli utenti possano semplicemente chiedere ai robot di eseguire qualsiasi compito desiderino, proprio come avviene con i modelli di linguaggio di grandi dimensioni (LLMs) e gli assistenti chatbot. Come gli LLM, il modello è addestrato su dati ampi e diversificati e può seguire varie istruzioni testuali. A differenza degli LLM, π0 abbraccia immagini, testo e azioni, acquisendo intelligenza fisica grazie all’addestramento su esperienze incarnate dai robot, imparando a emettere direttamente comandi motori a basso livello tramite un’architettura innovativa. Può controllare una varietà di robot diversi e può essere guidato nell’esecuzione di un compito desiderato o perfezionato per specializzarsi in scenari applicativi complessi.

La Promessa delle Politiche Robotiche Generaliste

Oggi, i robot sono specializzati in compiti ristretti. I robot industriali sono programmati per eseguire movimenti ripetitivi in ambienti coreografati, ripetendo le stesse azioni in una linea di assemblaggio o posizionando lo stesso oggetto nella stessa scatola. Anche comportamenti così semplici richiedono una vasta ingegneria manuale e comportamenti più complessi in ambienti disordinati, come le nostre case, risultano semplicemente inattuabili. L’intelligenza artificiale potrebbe cambiare questa situazione, consentendo ai robot di apprendere e seguire le istruzioni degli utenti, rendendo la programmazione di un nuovo comportamento semplice come comunicare al robot cosa fare, permettendo a quest’ultimo di adattarsi al proprio ambiente. Tuttavia, ciò richiede dati.

Se riuscissimo a formare una singola politica robotica generalista capace di eseguire una vasta gamma di abilità e controllare una varietà di robot, potremmo superare questa sfida: un tale modello necessiterebbe solo di una piccola quantità di dati da ciascun robot e per ciascuna applicazione. Proprio come una persona può imparare rapidamente una nuova abilità attingendo all’esperienza di una vita, una politica robotica generalista potrebbe specializzarsi in nuovi compiti con modeste quantità di dati. Non è la prima volta che un modello generalista supera uno specialista nel compito di quest’ultimo: i modelli di linguaggio hanno superato i sistemi di elaborazione del linguaggio più specializzati proprio perché riescono a risolvere meglio quei compiti specializzati attingendo alla loro diversità e capacità generali di preaddestramento. Analogamente a come gli LLM forniscono un modello di base per il linguaggio, queste politiche robotiche generaliste forniranno un modello di base per l’intelligenza fisica.

Un Approccio di Addestramento Trasversale

Il modello utilizza di Physical Intelligence un preaddestramento visione-linguaggio a scala internet, dataset di manipolazione robotica open-source e i nostri dataset contenenti compiti abili da otto robot distinti. π0 combina la raccolta di dati multi-task e multi-robot su larga scala con una nuova architettura di rete, consentendo la politica robotica generalista più capace e abile mai realizzata. Sebbene riteniamo che questo sia solo un piccolo passo iniziale verso lo sviluppo di modelli robotici veramente universali, un’eccitante opportunità che offre uno sguardo su ciò che ci attende.

Il prototipo di politica robotica generalista è addestrato sul più grande dataset di interazione robotica mai creato. L’intero mix di addestramento include sia dati open-source sia un ampio e diversificato dataset di compiti abili che abbiamo raccolto tra otto robot distinti. I compiti in questo dataset coprono una vasta gamma di abilità, esercitando diverse dimensioni della destrezza robotica e comprendendo una varietà di oggetti e scene. Il nostro obiettivo nella selezione di questi compiti non è risolvere applicazioni specifiche, ma fornire al nostro modello una comprensione generale delle interazioni fisiche, un fondamento iniziale per l’intelligenza fisica.

Conoscenza Semantica e Comprensione Visiva

Oltre a essere addestrato su molti robot, π0 eredita conoscenza semantica e comprensione visiva da un preaddestramento su scala internet partendo da un modello di linguaggio visione pre-addestrato (VLM). I VLM sono addestrati a modellare testo e immagini presenti nel web — modelli VLM ampiamente utilizzati includono GPT-4V e Gemini. Noi utilizziamo un VLM pre-addestrato di dimensioni più piccole, composto da 3 miliardi di parametri, adattandolo per il controllo robotico in tempo reale. I VLM trasferiscono efficacemente conoscenza semantica dal web, ma sono progettati per emettere solo token di linguaggio discreti. La manipolazione robotica abile richiede che π0 emetta comandi motori a una frequenza elevata, fino a 50 volte al secondo. Per fornire questo livello di destrezza, abbiamo sviluppato un metodo innovativo per potenziare i VLM pre-addestrati con uscite di azione continue tramite flow matching, una variante dei modelli di diffusione.

Affinamento per la Manipolazione Abile

Compiti più complessi e abili potrebbero richiedere che il modello venga perfezionato per specializzarsi in sfide successive. L’affinamento del modello con dati di alta qualità per un compito difficile, come piegare il bucato, è analogo al processo di post-addestramento impiegato dai progettisti di LLM. Il pre-addestramento insegna al modello il mondo fisico, mentre l’affinamento costringe il modello a eseguire un compito specifico in modo efficace. Consideriamo alcuni di questi compiti.

Dopo l’affinamento, il robot è in grado di scaricare l’asciugatrice, portare i vestiti al tavolo e piegarli in una pila ordinata. Questo compito è estremamente difficile per i robot (e per alcuni umani): mentre una singola maglietta stesa su un tavolo può a volte essere piegata semplicemente ripetendo un set di movimenti predefiniti, un mucchio di bucato ingarbugliato può essere piegato in molti modi diversi, quindi non basta muovere le braccia attraverso le stesse azioni.

Il modello è anche in grado di liberarsi da situazioni in cui qualcuno prova a intervenire in vari modi. Ad esempio, per il compito di bussare un tavolo, il robot deve raccogliere piatti e rifiuti, collocando piatti, posate o bicchieri in un contenitore e i rifiuti in un altro. Questo richiede al robot di gestire una varietà vertiginosa di oggetti. Uno degli esiti entusiastici dell’addestramento di π0 su dataset grandi e diversificati è stato il range di strategie emergenti che il robot ha impiegato: invece di afferrare ogni oggetto uno dopo l’altro, il modello potrebbe impilare più piatti per metterli nel contenitore insieme o scuotere i rifiuti da un piatto prima di riporlo nel contenitore.

Valutazione e Comparazione di π0 con i Modelli Precedenti

Il modello è stato confrontato π0 con altri modelli di base robotica proposti nella letteratura accademica. Questi compiti sono molto più difficili rispetto a quelli comunemente usati negli esperimenti accademici, dove i compiti consistono tipicamente in comportamenti a singolo stadio. Il nostro semplice compito di bussare un tavolo, ad esempio, richiede la classificazione di più oggetti in un contenitore per i rifiuti o per il bussare, mentre i compiti più complessi possono richiedere più fasi, manipolazione di oggetti deformabili e la capacità di adottare una delle molte strategie possibili in base alla configurazione iniziale degli oggetti e alla direzione della forza applicata.

Dopo che il robot ha eseguito con successo i compiti, è stato messo a confronto con il nostro sistema interno di etichettatura per compiti di apprendimento semi-supervisionato. Gli esperimenti mostrano che π0 si comporta meglio nella stragrande maggioranza delle situazioni.

Il Cammino Verso il Futuro

Questo è solo l’inizio di un viaggio potenzialmente epocale. Stanno dimostrando che la tecnologia di intelligenza fisica è ora a portata di mano. Con il continuo progresso e affinamento di sistemi come π0, il sogno di robot versatili e capaci di interagire con il mondo fisico in modo autonomo non è più un miraggio, ma una realtà tangibile. Mentre ci avviciniamo a questa nuova frontiera, il mondo è pronto a vivere una trasformazione radicale in come interagiamo con la tecnologia e i robot nelle nostre vite quotidiane.