2ヶ月前

時間的グラウンディングビデオ:フリッピング漫画のようなもの

Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang

時間的グラウンディングビデオ:フリッピング漫画のようなもの
要約

ビデオ大規模言語モデル(Vid-LLMs)は、QA対話におけるビデオコンテンツの理解において著しい進歩を遂げています。しかし、これらのモデルは、正確な時間的局在化を必要とするタスクへの視覚的理解の拡張に苦戦しています。この問題に対処するため、私たちはNumber-Prompt(NumPro)という新しい手法を導入します。NumProは、各ビデオフレームに一意の数値識別子を追加することで、Vid-LLMsが視覚的理解と時間的局在化を結びつけることを可能にします。ビデオを番号付きのフレーム画像の系列として扱うことで、NumProはVTGを直感的なプロセスに変換します:連続してマンガのパネルをめくるようにです。これにより、Vid-LLMsは「イベントのタイムラインを読む」ことができ、視覚的内容と対応する時間的情報を正確にリンクさせます。私たちの実験では、NumProがトップクラスのVid-LLMsのVTG性能を大幅に向上させることを示しており、追加の計算コストなしで達成されています。さらに、NumPro強化データセットでの微調整により、VTGにおける新たな最先端が定義され、以前の最良の方法よりも最大6.9%(mIoUでモーメント検索)と8.5%(mAPでハイライト検出)高い性能が得られています。コードは https://github.com/yongliang-wu/NumPro で公開されます。