il y a 2 mois

VideoLLaMA 2 : Amélioration de la modélisation spatio-temporelle et de la compréhension audio dans les Video-LLMs

Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing

Voir les détails de l'article

VideoLLaMA 2 : Amélioration de la modélisation spatio-temporelle et de la compréhension audio dans les Video-LLMs

Résumé

Dans cet article, nous présentons VideoLLaMA 2, une série de grands modèles linguistiques vidéo (Video-LLMs) conçus pour améliorer la modélisation spatio-temporelle et la compréhension audio dans les tâches orientées vers la vidéo et l'audio. En s'appuyant sur son prédécesseur, VideoLLaMA 2 intègre un connecteur de convolution spatio-temporelle (STC) spécifique, qui capture efficacement les dynamiques spatiales et temporelles complexes des données vidéo. De plus, nous avons intégré une branche audio au modèle par le biais d'un entraînement conjoint, ce qui enrichit les capacités de compréhension multimodale du modèle en incorporant de manière fluide les indices sonores. Des évaluations approfondies sur des tâches de réponse à des questions vidéo à choix multiples (MC-VQA), de réponse à des questions vidéo ouvertes (OE-VQA) et de légendage vidéo (VC) montrent que VideoLLaMA 2 obtient régulièrement des résultats compétitifs parmi les modèles open source et se rapproche même de certains modèles propriétaires sur plusieurs benchmarks. De plus, VideoLLaMA 2 présente des améliorations raisonnables sur les benchmarks de réponse à des questions audio uniquement et audio-vidéo (AQA & OE-AVQA) par rapport aux modèles existants. Ces progrès soulignent la supériorité de VideoLLaMA 2 en matière de compréhension multimodale, fixant un nouveau standard pour les systèmes d'analyse vidéo intelligents. Tous les modèles sont rendus publics afin de faciliter des recherches ultérieures.