Command Palette
Search for a command to run...

要約
マルチモーダル大規模言語モデル(MLLM)の最近の進展は、動画理解における顕著な潜在能力を示している。しかし、既存のベンチマークは、音声と視覚モダリティ間の連携推論能力を包括的に評価できていない。多くの場合、一方のモダリティを無視するか、論理的に整合性のない方法でモダリティを統合している。このギャップを埋めるために、本研究では、モダリティの補完性と論理的一貫性に重点を置き、連携型音声-視覚理解を評価することを目的とした大規模かつ厳密に設計されたベンチマーク「OmniVideoBench」を提案する。具体的には、628本の多様な動画(長さは数秒から30分まで)から抽出され、1000件の高品質な質問-回答(QA)ペアを含み、それぞれが段階的な推論プロセスのトレースで注釈付けられている。これらのQAペアは手動で検証され、完全な正確性と一意性が保証されている。さらに、OmniVideoBenchは、時間的推論、空間的局在化、数え上げ、因果推論、要約など、13種類の精心設計された質問タイプをカバーしており、動画理解における本質的な課題を包括的に捉えている。OmniVideoBench上での複数のMLLMの評価から、モデルの性能と人間の推論能力との間に顕著な差が明らかになった。特に、オープンソースモデルはクローズドソースモデルに大きく後れを取っており、本物の音声-視覚推論の本質的な難しさが浮き彫りになった。本研究では、OmniVideoBenchを公開することで、より強力で汎用性の高い推論能力を持つMLLMの開発を促進することを目的としている。