Recentemente, i ricercatori nel campo della robotica hanno introdotto un metodo di addestramento innovativo per i robot, ispirato ai modelli di linguaggio di grandi dimensioni. Questo approccio unisce diverse fonti di dati per migliorare l’apprendimento e l’adattabilità dei robot in una varietà di compiti. Secondo un articolo pubblicato dal MIT, l’obiettivo di questa nuova metodologia è quello di superare i limiti dell’apprendimento per imitazione tradizionale, sfruttando un dataset più completo. Tale progresso ha il potenziale di rivoluzionare il modo in cui i robot acquisiscono nuove abilità, portando a sistemi più autonomi e intelligenti in una vasta gamma di settori.
Generative AI: L’Inizio di una Nuova Era nella Robotica
L’intelligenza artificiale generativa sta trasformando il panorama della robotica, consentendo lo sviluppo di sistemi più adattabili e versatili. Questo approccio permette ai robot di creare nuovi comportamenti, movimenti e dati basati sul loro addestramento, ampliando significativamente le loro capacità. Le applicazioni chiave includono:
- Azioni dei robot: Utilizzare modelli di linguaggio per interpretare comandi umani e generare movimenti appropriati per i robot.
- Percezione: Sfruttare modelli visivi di linguaggio per migliorare la comprensione ambientale dei robot.
- Navigazione: Addestrare modelli generativi per mappare le istruzioni umane su punti di riferimento, migliorando la navigazione.
- Design: Utilizzare processi di design generativo per creare strutture robotiche più efficienti e innovative.
Queste innovazioni stanno preparando il terreno per sistemi robotici sempre più autonomi e intelligenti, con applicazioni potenziali in settori quali la manifattura, la sanità e i servizi.
Dati Robotic Unified Multimodali
I ricercatori stanno anche sviluppando framework unificati per gestire dati robotici multimodali diversificati, affrontando la sfida di integrare informazioni provenienti da vari sensori e specifiche di compito. Un esempio di questo è l’approccio MUTEX, che utilizza un’architettura basata su trasformatori per elaborare sei diverse modalità, tra cui dimostrazioni video, immagini obiettivo e istruzioni vocali. Questo metodo unificato consente il ragionamento cross-modale e migliora le prestazioni in una gamma di compiti rispetto all’addestramento a singola modalità.
Analogamente, il formato standard ARIO (All Robots In One) mira a creare un formato di dati unificato per piattaforme robotiche diverse, incorporando più modalità sensoriali come immagini, visione 3D, audio, testo e feedback tattile. Standardizzando la raccolta di dati e i timestamp, ARIO facilita lo sviluppo di agenti AI corporei più versatili e general-purpose, accelerando potenzialmente i progressi nell’apprendimento e nell’adattamento robotico attraverso diversi compiti e ambienti.
Trasformatori Preaddestrati Eterogenei: Una Nuova Frontiera
L’architettura Heterogeneous Pretrained Transformers (HPT), sviluppata dai ricercatori del MIT, affronta la sfida di addestrare robot general-purpose attraverso diverse incarnazioni e compiti. Le caratteristiche principali di HPT includono:
- Unificazione dei dati robotici variegati: Integra informazioni di propriocezione e visione in un linguaggio comune per i modelli AI.
- Design modulare: Composto da tokenizers specifici per l’incarnazione, un trasformador pre-addestrato condiviso, e decodificatori di azione specifici per il compito.
- Elaborazione di input diversificati: Capacità di gestire input provenienti da diversi design e sensori robotici in un numero fisso di token.
- Pre-addestramento su un dataset vasto: Utilizza oltre 200.000 traiettorie robotiche provenienti da 52 fonti diverse.
Questa strategia consente ai robot di adattarsi più rapidamente a nuovi compiti e ambienti, superando i metodi di addestramento tradizionali di oltre il 20% sia in esperimenti simulati che nel mondo reale. Sfruttando dati eterogenei su larga scala, HPT si propone di creare sistemi di apprendimento robotico più versatili ed efficienti, segnando una nuova era nell’interazione tra umani e robot.