LLaVA-MR : Grand assistant linguistique et visuel pour la recherche de moments vidéo

Les Modèles de Langue Multimodaux à Grande Échelle (MLLMs) sont largement utilisés pour la perception, la compréhension et le raisonnement visuels. Cependant, le traitement de vidéos longues et la récupération précise de moments restent des défis en raison de la taille limitée du contexte des MLLMs et de l'extraction grossière des images. Nous proposons l'Assistant de Langue et Vision à Grande Échelle pour la Récupération de Moments (LLaVA-MR), qui permet une récupération précise de moments et un ancrage contextuel dans les vidéos grâce aux MLLMs. LLaVA-MR combine l'Encodage Densément Temporel et Spatiale des Images (DFTE) pour l'extraction de caractéristiques spatio-temporelles, la Sélection d'Images Informatives (IFS) pour capturer des motifs visuels et mouvements brefs, ainsi que la Compression Dynamique de Tokens (DTC) pour gérer les limitations du contexte des MLLMs. Les évaluations sur des benchmarks tels que Charades-STA et QVHighlights montrent que LLaVA-MR surpasse 11 méthodes d'avant-garde, réalisant une amélioration de 1,82 % en R1@0,5 et de 1,29 % en mAP@0,5 sur le jeu de données QVHighlights. Notre implémentation sera mise à disposition sous licence open source dès son acceptation.