2ヶ月前

クエリ依存のビデオ表現を用いた瞬間検索とハイライト検出

WonJun Moon; Sangeek Hyun; SangUk Park; Dongchan Park; Jae-Pil Heo
クエリ依存のビデオ表現を用いた瞬間検索とハイライト検出
要約

最近、ビデオモーメント検索とハイライト検出(MR/HD)が注目を集めています。これは、ビデオ理解の需要が急激に増加しているためです。MR/HDの主要な目的は、与えられたテキストクエリに対応するモーメントを特定し、その重要度スコア(サリエンシースコア)を推定することです。近年のトランスフォーマーに基づくモデルはいくつかの進歩をもたらしましたが、これらの手法は与えられたクエリの情報を十分に活用していないことがわかりました。例えば、テキストクエリとビデオコンテンツとの関連性が、モーメントとそのサリエンシーの予測時に無視されることがあります。この問題に対処するために、Query-Dependent DETR(QD-DETR)という検出トランスフォーマーを導入します。これはMR/HD向けに特化したものです。トランスフォーマー構造において与えられたクエリの役割が軽視されていることを観察した結果、私たちのエンコーディングモジュールではクロスアテンション層から始めることで、テキストクエリのコンテキストを明示的にビデオ表現に注入します。次に、モデルがクエリ情報をより効果的に活用できるようにするために、ビデオ-クエリペアを操作して無関係なペアを作成します。このようなネガティブ(無関係)なビデオ-クエリペアは低いサリエンシースコアを生成するよう訓練され、これによりモデルはクエリ-ビデオペア間の正確な一致度を見積もるよう促されます。最後に、入力適応型サリエンシープレディクターを提案します。これは与えられたビデオ-クエリペアに対してサリエンシースコアの基準を適応的に定義します。私たちの広範な研究により、MR/HDのためにクエリー依存表現を構築することが重要であることが確認されました。特に、QD-DETRはQVHighlights, TVSum, およびCharades-STAデータセットにおいて最先端の手法を超える性能を示しています。コードはgithub.com/wjun0830/QD-DETRで公開されています。

クエリ依存のビデオ表現を用いた瞬間検索とハイライト検出 | 最新論文 | HyperAI超神経