ByteDance ha recentemente svelato UI-TARS-1.5, un agente multimodale open source che promette di rivoluzionare l’interazione uomo-macchina. Progettato per operare con interfacce grafiche complesse, questo modello combina visione artificiale e linguaggio naturale per eseguire compiti su desktop, browser, dispositivi mobili e ambienti di gioco.​

UI-TARS-1.5 si distingue per la sua capacità di “vedere” e comprendere l’interfaccia utente come farebbe un essere umano, interpretando elementi visivi e rispondendo a comandi in linguaggio naturale. Questo approccio consente una navigazione più intuitiva e una maggiore efficienza nell’esecuzione di compiti complessi.​

Le prestazioni di UI-TARS-1.5 sono state valutate attraverso vari benchmark, mostrando risultati superiori rispetto a modelli concorrenti come OpenAI Operator e Claude 3.7. Ad esempio, nel benchmark OSworld, UI-TARS-1.5 ha ottenuto un punteggio di 42.5, superando OpenAI CUA (36.4) e Claude 3.7 (28). Inoltre, ha raggiunto il 100% di successo in una serie di giochi su poki.com, dimostrando una notevole capacità di adattamento e apprendimento. ​

La struttura di UI-TARS-1.5 si basa su un modello visione-linguaggio che integra percezione, ragionamento e azione in un’unica architettura end-to-end. Questo design consente al modello di comprendere e interagire con l’ambiente in modo più naturale e flessibile, senza la necessità di script predefiniti o regole rigide.

Per gli sviluppatori interessati, ByteDance ha reso disponibile il codice sorgente su GitHub, offrendo l’opportunità di esplorare e contribuire allo sviluppo di UI-TARS-1.5. GitHub Inoltre, il modello è accessibile su Hugging Face, facilitando l’integrazione e la sperimentazione in vari progetti. ​