2ヶ月前

MVBench: 全面的な多モーダル動画理解ベンチマーク

Kunchang Li; Yali Wang; Yinan He; Yizhuo Li; Yi Wang; Yi Liu; Zun Wang; Jilan Xu; Guo Chen; Ping Luo; Limin Wang; Yu Qiao
MVBench: 全面的な多モーダル動画理解ベンチマーク
要約

マルチモーダル大規模言語モデル(MLLM)の急速な発展に伴い、これらのモデルの理解能力を評価するための診断ベンチマークが最近多数登場しています。しかし、多くのベンチマークは静止画タスクにおける空間理解を主に評価しており、動画タスクにおける時間的理解には十分な注意が払われていません。この問題を緩和するために、私たちは20の単一フレームでは効果的に解決できない挑戦的な動画タスクをカバーする包括的なマルチモーダル動画理解ベンチマークであるMVBenchを導入します。具体的には、まず、これらの時間関連タスクを定義する新しい静止画から動画への変換手法を提案します。様々な静止画タスクを動画タスクに変換することで、知覚から認知まで広範な時間的スキルが必要となるビデオタスクの体系的な生成が可能になります。次に、タスク定義に基づいて公開されているビデオ注釈を自動的に選択肢付き質問回答形式に変換し、各タスクの評価を行います。一方で、このような独自のパラダイムにより、MVBenchを効率的に構築でき、手動での介入がほとんど必要ありません。他方で、真実値ビデオ注釈による評価の公平性が保証され、LLMの偏ったスコアリングを避けることができます。さらに、多様な指示調整データを使用した進行的なマルチモーダル学習によって堅牢なビデオMLLMベースラインであるVideoChat2を開発しました。私たちのMVBenchにおける広範な結果は、既存のMLLMが時間的理解において満足できるレベルに達していないことを示しています。一方で、VideoChat2はMVBench上で主要モデルに対して15%以上も大幅に優れた性能を示しています。すべてのモデルとデータはhttps://github.com/OpenGVLab/Ask-Anything で利用可能です。

MVBench: 全面的な多モーダル動画理解ベンチマーク | 最新論文 | HyperAI超神経