VRBench: 長編ナラティブビデオにおける多段階推論のベンチマーク
Yu, Jiashuo ; Wu, Yue ; Chu, Meng ; Ren, Zhifei ; Huang, Zizheng ; Chu, Pei ; Zhang, Ruijie ; He, Yinan ; Li, Qirui ; Li, Songze ; Li, Zhenxiang ; Tu, Zhongying ; He, Conghui ; Qiao, Yu ; Wang, Yali ; Wang, Yi ; Wang, Limin
公開日: 6/15/2025

要約
私たちはVRBenchを紹介します。これは、大規模モデルの多段階推論能力を評価するために設計された最初の長編ナラティブビデオベンチマークであり、既存の評価手法が時間的な推論や手続きの妥当性を見落としている問題に対処しています。このベンチマークには、平均1.6時間の1,010本の長編ビデオと、9,468組の人間によるラベリング付き多段階質問応答ペア、および30,292個のタイムスタンプ付き推論ステップが含まれています。これらのビデオは、プロットの一貫性を重視するため、専門家の相互評価を含む複数段階のフィルタリングプロセスを通じて選定されています。また、私たちは人間とAIが協力して一貫した推論チェーンを生成するフレームワークを開発しました。各推論チェーンは、複数の時間的に基づいたステップ(7つのタイプに分類される、例えばイベント属性付け、暗黙的推論など)を必要とします。VRBenchでは、結果レベルとプロセスレベルの両方でモデルを評価する多段階評価パイプラインを設計しています。最終結果用の選択肢形式(MCQs)以外にも、推論チェーンの品質を包括的に多次元から評価する進行レベルでのLLMガイドスコアリングメトリックを提案しています。12種類の大規模言語モデル(LLMs)と16種類の大規模視覚言語モデル(VLMs)に対する広範なVRBench評価を通じて、私たちは詳細な分析を行い、多段階推論分野における重要な洞察を提供しています。