HyperAIHyperAI
il y a 17 jours

TimeSuite : Amélioration des MLLMs pour la compréhension des vidéos longues par une adaptation ancrée

Xiangyu Zeng, Kunchang Li, Chenting Wang, Xinhao Li, Tianxiang Jiang, Ziang Yan, Songze Li, Yansong Shi, Zhengrong Yue, Yi Wang, Yali Wang, Yu Qiao, Limin Wang
TimeSuite : Amélioration des MLLMs pour la compréhension des vidéos longues par une adaptation ancrée
Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLM) ont fait preuve d’une performance remarquable dans la compréhension des courts métrages. Toutefois, la compréhension des vidéos longues reste un défi majeur pour ces modèles. Ce papier présente TimeSuite, une collection de nouvelles architectures visant à adapter les MLLM existants conçus pour les courtes vidéos afin qu’ils puissent traiter efficacement les vidéos longues. Cette proposition comprend : un cadre simple mais efficace pour traiter les séquences vidéo longues, un jeu de données vidéo de haute qualité destiné à la calibration fondée (grounded tuning) des MLLM, ainsi qu’une tâche d’instruction fine ajustée pour intégrer explicitement la supervision de localisation temporelle dans un format traditionnel de questions-réponses. Plus précisément, à partir de VideoChat, nous proposons notre modèle MLLM pour vidéos longues, nommé VideoChat-T, en mettant en œuvre une permutation de jetons pour compresser les jetons vidéo longs, ainsi qu’un encodage de position temporel adaptatif (TAPE) afin d’améliorer la conscience temporelle de la représentation visuelle. Par ailleurs, nous introduisons TimePro, un jeu de données d’instruction de calibration centrée sur la localisation, composé de 9 tâches et de 349 000 annotations de haute qualité liées à des contenus vidéo. Notamment, nous avons conçu un nouveau type de tâche d’instruction, appelé « Captioning fondé temporellement », permettant de produire des descriptions détaillées de vidéos accompagnées de prédictions d’horodatage correspondantes. Cette prédiction explicite de localisation temporelle guide le MLLM à s’attacher correctement au contenu visuel lors de la génération de descriptions, réduisant ainsi le risque d’hallucinations provoquées par les modèles linguistiques à grande échelle. Les résultats expérimentaux montrent que TimeSuite offre une solution efficace pour améliorer la capacité de compréhension des vidéos longues des MLLM conçus initialement pour les courtes vidéos, avec une amélioration respective de 5,6 % et 6,8 % sur les benchmarks Egoschema et VideoMME. En outre, VideoChat-T démontre une capacité robuste de localisation temporelle en mode zéro-shot, surpassant significativement les modèles MLLM les plus avancés existants. Après une phase de fine-tuning, ses performances sont comparables à celles des modèles experts supervisés traditionnels.