HyperAIHyperAI
il y a 2 mois

LongVU : Compression spatiotemporelle adaptative pour la compréhension vidéo-linguistique à long terme

Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
LongVU : Compression spatiotemporelle adaptative pour la compréhension vidéo-linguistique à long terme
Résumé

Les Modèles Linguistiques Multimodaux à Grande Échelle (MLLMs) ont montré des progrès prometteurs dans la compréhension et l'analyse du contenu vidéo. Cependant, le traitement de vidéos longues reste un défi majeur en raison de la taille limitée du contexte des MLLMs. Pour surmonter cette limitation, nous proposons LongVU, un mécanisme d'adaptation spatio-temporelle qui réduit le nombre de jetons vidéo tout en préservant les détails visuels des vidéos longues. Notre approche repose sur l'exploitation des requêtes inter-modales et des dépendances inter-images pour réduire de manière adaptative la redondance temporelle et spatiale dans les vidéos. Plus précisément, nous utilisons les caractéristiques DINOv2 pour éliminer les images redondantes présentant une forte similarité. Ensuite, nous mettons en œuvre une requête inter-modale guidée par le texte pour réduire sélectivement les caractéristiques des images. De plus, nous effectuons une réduction spatiale des jetons au fil des images en fonction de leurs dépendances temporelles. Notre stratégie d'adaptation permet de traiter un grand nombre d'images avec une perte minimale d'informations visuelles dans le cadre d'une longueur de contexte donnée. LongVU surpasse constamment les méthodes existantes sur diverses基准 (benchmarks) de compréhension vidéo, notamment sur les tâches de compréhension de vidéos d'une heure comme VideoMME et MLVU. Avec un modèle linguistique léger, notre LongVU s'échelonne également efficacement vers une taille plus petite tout en offrant des performances de pointe en compréhension vidéo.Note: "基准" est remplacé par "benchmarks" car il s'agit d'un terme technique couramment utilisé en français dans ce contexte.

LongVU : Compression spatiotemporelle adaptative pour la compréhension vidéo-linguistique à long terme | Articles de recherche récents | HyperAI