L’evoluzione della robotica di uso generale è stata accelerata grazie a una tecnica di addestramento innovativa sviluppata dai ricercatori del MIT. Questa metodologia rivoluzionaria, ispirata ai grandi modelli di linguaggio (LLM) come GPT-4, promette di ridurre drasticamente i tempi e i costi di addestramento dei robot, permettendo loro di apprendere nuove competenze utilizzando dati eterogenei provenienti da fonti disparate. La ricerca, guidata da Lirui Wang del Dipartimento di Ingegneria Elettrica e Informatica (EECS) e pubblicata di recente, rappresenta un notevole passo avanti verso la creazione di robot in grado di adattarsi a diversi ambienti e svolgere una vasta gamma di compiti.

Un’Architettura Unificata per la Diversità dei Dati

La sfida principale nell’addestramento di robot multiuso risiede nella raccolta e nell’elaborazione di dati specifici per ogni ambiente e compito. Tradizionalmente, i robot venivano addestrati in ambienti altamente controllati e con dati limitati, un approccio costoso e di difficile scalabilità. I ricercatori del MIT hanno ideato una soluzione più efficiente attraverso un’architettura innovativa, chiamata Heterogeneous Pretrained Transformers (HPT), che integra dati eterogenei – dalle simulazioni ai dati dei robot fisici – in un “linguaggio condiviso” interpretabile da un modello di intelligenza artificiale generativa.

Come illustrato dai ricercatori, il nucleo di HPT è un modello di apprendimento automatico noto come “trasformatore”, lo stesso tipo di architettura che potenzia i modelli di linguaggio come GPT-4. Il trasformatore è progettato per elaborare input multimodali – visione, posizione degli arti robotici e altri segnali propriocettivi – rappresentati come “token” uniformi che il modello può interpretare e processare. Il risultato è un sistema pre-addestrato in grado di adattarsi rapidamente a nuovi robot e compiti, offrendo così un miglioramento prestazionale superiore al 20% rispetto ai tradizionali metodi di addestramento da zero.

Pre-Addestramento su Dati Estesi e Omogenei

L’architettura HPT si basa su un pre-addestramento massiccio che utilizza una vasta raccolta di dati eterogenei: i ricercatori hanno creato un dataset composto da 52 set di dati e oltre 200.000 traiettorie robotiche in quattro diverse categorie, comprendendo video dimostrativi umani e simulazioni. Per ottenere il massimo dalle informazioni propriocettive, i ricercatori hanno sviluppato tecniche avanzate per trasformare questi segnali grezzi in dati gestibili dal trasformatore, garantendo che ogni token mantenga lo stesso peso nel processo di addestramento.

Questa tecnica ha permesso di superare una delle barriere principali nel campo della robotica: la complessità legata alla variabilità degli hardware robotici e degli ambienti operativi. Con un sistema HPT, qualsiasi robot può ora essere addestrato a partire da una base di conoscenza condivisa, senza necessità di ricominciare da zero. Il trasformatore centrale di HPT continua a migliorare le proprie prestazioni man mano che viene esposto a una quantità sempre maggiore di dati.

Ispirazione dai Modelli di Linguaggio e Futuri Sviluppi

Prendendo spunto dal successo dei modelli di linguaggio, i ricercatori del MIT hanno adattato l’approccio di pre-addestramento su vasta scala anche alla robotica. Come GPT-4, HPT è in grado di adattarsi rapidamente a nuove attività attraverso un addestramento specifico limitato. Questo metodo consente ai robot di acquisire una capacità di generalizzazione che non richiede grandi quantità di dati specifici per ciascun compito, rendendo l’addestramento più rapido e flessibile. Inoltre, l’HPT ha dimostrato di migliorare le performance anche su attività che si discostano significativamente dai dati iniziali, evidenziando una capacità di adattamento inedita.

David Held, professore associato presso il Carnegie Mellon University Robotics Institute, ha sottolineato come questa ricerca rappresenti un importante progresso nella robotica, permettendo l’addestramento di una singola politica di controllo su robot con strutture differenti. Questo approccio favorisce l’espansione dei dataset robotici e consente un rapido adattamento a nuove tipologie di hardware, aspetto cruciale in un settore in cui i design dei robot sono in continua evoluzione.

I prossimi obiettivi dei ricercatori si concentrano sullo studio dell’efficacia di un’ulteriore diversificazione dei dati e sull’espansione dell’HPT per renderlo capace di elaborare dati non etichettati, analogamente a modelli di linguaggio avanzati come GPT-4. Questa capacità aprirebbe la strada a un “cervello universale per robot”, un sistema plug-and-play che potrebbe essere implementato su qualsiasi robot senza la necessità di addestramenti specifici, rendendo concreta l’ambizione di avere robot generici e autosufficienti come nella visione futuristica dei cartoni animati “The Jetsons”.

Con l’introduzione di HPT, il MIT si pone dunque all’avanguardia nello sviluppo di robot general-purpose, avvicinandosi sempre di più al sogno di una robotica onnipresente, capace di imparare e adattarsi autonomamente alle esigenze più varie.