HyperAIHyperAI
il y a 2 mois

InternVideo2.5 : Doter les MLLM vidéo d'une modélisation de contexte longue et riche

Yi Wang; Xinhao Li; Ziang Yan; Yinan He; Jiashuo Yu; Xiangyu Zeng; Chenting Wang; Changlian Ma; Haian Huang; Jianfei Gao; Min Dou; Kai Chen; Wenhai Wang; Yu Qiao; Yali Wang; Limin Wang
InternVideo2.5 : Doter les MLLM vidéo d'une modélisation de contexte longue et riche
Résumé

Ce travail vise à améliorer les performances des grands modèles de langage multimodaux pour la vidéo (MLLM) grâce à la modélisation d'un contexte long et riche (LRC). À cette fin, nous développons une nouvelle version d'InternVideo2.5, axée sur l'amélioration de la capacité des MLLMs originaux à percevoir des détails fins et à capturer des structures temporelles de longue durée dans les vidéos. Plus précisément, notre approche intègre des annotations de tâches visuelles denses dans les MLLMs en utilisant l'optimisation directe des préférences et développe des représentations spatio-temporelles compactes par le biais d'une compression hiérarchique adaptative des jetons. Les résultats expérimentaux montrent que ce design unique de LRC améliore considérablement les performances des MLLMs vidéo dans les principaux benchmarks de compréhension vidéo (courts et longs), permettant aux MLLMs de mémoriser des entrées vidéo bien plus longues (au moins 6 fois plus longues que l'original) et de maîtriser des capacités visuelles spécialisées comme le suivi d'objets et la segmentation. Notre étude souligne l'importance de la richesse du contexte multimodal (longueur et finesse) pour renforcer les capacités innées des MLLMs (concentration et mémoire), offrant ainsi de nouvelles perspectives pour les recherches futures sur les MLLMs vidéo. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5

InternVideo2.5 : Doter les MLLM vidéo d'une modélisation de contexte longue et riche | Articles de recherche récents | HyperAI