2ヶ月前
InternVideo2.5: 長い文脈と豊かな情報モデリングを用いたビデオMLLMの強化
Yi Wang; Xinhao Li; Ziang Yan; Yinan He; Jiashuo Yu; Xiangyu Zeng; Chenting Wang; Changlian Ma; Haian Huang; Jianfei Gao; Min Dou; Kai Chen; Wenhai Wang; Yu Qiao; Yali Wang; Limin Wang

要約
本論文は、長くて豊富なコンテキスト(LRC)モデリングを通じて、ビデオ多様態大規模言語モデル(MLLM)の性能を向上させることが目的である。その結果、微細な詳細を認識し、ビデオにおける長期的な時間構造を捉える能力を強化することに焦点を当てた新しいバージョンのInternVideo2.5を開発した。具体的には、直接的な好み最適化を使用してMLLMに密接な視覚タスクアノテーションを取り入れ、適応階層トークン圧縮を通じてコンパクトな空間時間表現を開発する手法を採用している。実験結果は、このLRCの独自設計が主流のビデオ理解ベンチマーク(短いものと長いもの)においてビデオMLLMの結果を大幅に改善し、MLLMが著しく長いビデオ入力(元の6倍以上)を記憶し、物体追跡やセグメンテーションなどの専門的な視覚能力を習得することを可能にしていることを示している。本研究は、多様態コンテキストの豊かさ(長さと微細さ)がMLLMの先天的能力(集中力と記憶力)を強化する上で重要な役割を果たすことを強調しており、ビデオMLLMに関する今後の研究に新たな洞察を与えている。コードとモデルは以下のURLから入手可能である: https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5