MUVR : Une base de benchmark pour la recherche dans les vidéos non coupées à plusieurs modalités avec correspondance visuelle multi-niveaux
MUVR : Une base de benchmark pour la recherche dans les vidéos non coupées à plusieurs modalités avec correspondance visuelle multi-niveaux

Résumé
Nous proposons la tâche de recherche de vidéos non coupées à modalités multiples (Multi-modal Untrimmed Video Retrieval), accompagnée d'une nouvelle base de données d'évaluation (MUVR) visant à faire progresser la recherche de vidéos sur les plateformes de vidéos longues. MUVR vise à retrouver des vidéos non coupées contenant des segments pertinents à partir de requêtes multimodales. Elle présente les caractéristiques suivantes : 1) Paradigme de recherche réaliste : MUVR prend en charge des requêtes multimodales centrées sur la vidéo, permettant d'exprimer des besoins de recherche fins grâce à des descriptions textuelles longues, des suggestions de balises vidéo et des masques de requête. Elle adopte un paradigme de recherche un-contre-plusieurs et se concentre sur les vidéos non coupées, ce qui la rend particulièrement adaptée aux applications sur les plateformes de vidéos longues. 2) Correspondance visuelle à plusieurs niveaux : Afin de couvrir les catégories vidéo courantes (par exemple, actualités, voyages, danse) et de définir précisément les critères de correspondance pour la recherche, nous avons construit une correspondance visuelle à plusieurs niveaux fondée sur le contenu central des vidéos (par exemple, événements d'actualité, lieux de voyage, mouvements de danse), qui sont les éléments d'intérêt des utilisateurs et qu'ils souhaitent retrouver. Cette correspondance englobe six niveaux : copie, événement, scène, instance, action et autres. 3) Critères d'évaluation complets : Nous avons développé trois versions de MUVR (à savoir, Base, Filter et QA). MUVR-Base et MUVR-Filter permettent d'évaluer les modèles de recherche de vidéos, tandis que MUVR-QA évalue les modèles multimodaux de langage et d'image (MLLMs) dans un format de réponse à des questions. Nous proposons également un score de réordonnancement (Reranking Score) pour évaluer la capacité des MLLMs à réordonner les résultats. MUVR comprend 53 000 vidéos non coupées provenant de la plateforme Bilibili, accompagnées de 1 050 requêtes multimodales et de 84 000 correspondances. Des évaluations étendues ont été menées sur trois modèles d'état de l'art pour la recherche de vidéos, six modèles visuels basés sur l'image (VLMs) et dix MLLMs. Les résultats montrent les limites des méthodes de recherche dans le traitement des vidéos non coupées et des requêtes multimodales, ainsi que celles des MLLMs en matière de compréhension de plusieurs vidéos et de réordonnancement.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.