“MM-Embed,” è un modello avanzato per la ricerca multimodale universale, sviluppato da NVIDIA e l’Università di Waterloo. Il modello si concentra su un nuovo approccio di recupero dell’informazione, in grado di gestire simultaneamente più modalità (testo, immagini e combinazioni di entrambi), in un unico sistema integrato per diversi compiti di recupero.
MM-Embed è progettato per comprendere e rispondere a query che combinano testo e immagini. Questa versatilità consente di affrontare compiti complessi, come domande visive e risposte basate su immagini, migliorando l’esperienza utente nella ricerca di informazioni.