“MM-Embed,” è un modello avanzato per la ricerca multimodale universale, sviluppato da NVIDIA e l’Università di Waterloo. Il modello si concentra su un nuovo approccio di recupero dell’informazione, in grado di gestire simultaneamente più modalità (testo, immagini e combinazioni di entrambi), in un unico sistema integrato per diversi compiti di recupero.
MM-Embed è progettato per comprendere e rispondere a query che combinano testo e immagini. Questa versatilità consente di affrontare compiti complessi, come domande visive e risposte basate su immagini, migliorando l’esperienza utente nella ricerca di informazioni.
Per affrontare il problema del “bias di modalità“, dove una modalità può essere preferita rispetto a un’altra, MM-Embed utilizza una strategia chiamata “mining di negativi difficili basato sulla modalità“. Questa strategia aiuta a equilibrare la capacità del modello di recuperare documenti pertinenti in base alla modalità richiesta dalla query.
Il modello implementa un sistema di riordinamento (reranking) dei risultati iniziali, utilizzando prompt specifici per affinare la rilevanza dei risultati rispetto alla query dell’utente. Questo processo aumenta l’accuratezza delle informazioni recuperate, rendendo le ricerche più efficaci.
MM-Embed è stato sottoposto a test rigorosi su benchmark di ricerca come M-BEIR, che include una varietà di compiti multimodali. I risultati mostrano che MM-Embed supera altri modelli in specifiche aree di ricerca multimodale, evidenziando la sua efficacia e innovazione nel campo del recupero dell’informazion.