2ヶ月前

Shot2Story: 多ショット動画の包括的理解のための新しいベンチマーク

Mingfei Han; Linjie Yang; Xiaojun Chang; Lina Yao; Heng Wang
Shot2Story: 多ショット動画の包括的理解のための新しいベンチマーク
要約

動画の短いクリップには、複数のイベントの進行と興味深いストーリーラインが含まれていることがあります。人間は各ショットで起こるイベントを捉え、それらを関連付けてその背後にある物語を理解する必要があります。本研究では、詳細なショットレベルのキャプション、包括的な動画要約、および質問応答ペアを備えた新しいマルチショット動画理解ベンチマーク「Shot2Story」を提示します。動画の意味的内容をよりよく理解するために、視覚信号と人間のナレーションの両方に対してキャプションを提供しています。私たちは単一ショット動画キャプション作成、マルチショット動画要約作成、マルチショット動画質問応答など、いくつかの異なるタスクを設計しました。初期実験では、マルチショット動画に対する長い包括的な要約を作成することがいくつかの課題であることが示されています。しかし、生成された不完全な要約でも既存の動画理解タスク(例:動画質問応答)において競争力のある性能を達成できています。これにより、「詳細な要約を使用した動画理解」という未十分に探索されていない設定が促進されます。

Shot2Story: 多ショット動画の包括的理解のための新しいベンチマーク | 最新論文 | HyperAI超神経