Ovis-1.6 rappresenta un significativo avanzamento nel campo dell’intelligenza artificiale, sviluppato da Alibaba Group e dall’Università di Nanchino. Questo modello affronta una delle sfide più critiche nel trattamento dei dati multimodali: il disallineamento tra dati visivi e testuali.
La tabella di consultazione visuale introdotta da Ovis-1.6 è una soluzione innovativa che organizza i dati delle immagini in un formato strutturato, simile a quello del testo. Questa struttura consente al modello di integrare informazioni visive e testuali in modo fluido, migliorando le prestazioni in diverse attività di intelligenza artificiale.