15日前

QVHighlights:自然言語クエリを用いた動画内の瞬間およびハイライトの検出

Jie Lei, Tamara L. Berg, Mohit Bansal
QVHighlights:自然言語クエリを用いた動画内の瞬間およびハイライトの検出
要約

自然言語(NL)によるユーザークエリに応じて動画からカスタマイズされた瞬間やハイライトを検出することは、重要な課題であるが、依然として十分に研究されていない分野である。この研究方向を進める上で直面する課題の一つは、注釈付きデータの不足である。この問題に対処するため、本研究では「Query-based Video Highlights(QVHIGHLIGHTS)」データセットを提案する。このデータセットは、1万件を超えるYouTube動画を含み、ライフスタイル系のVlog動画における日常的な活動や旅行から、ニュース動画における社会的・政治的活動まで、幅広いトピックをカバーしている。各動画には以下の3つの注釈が付与されている:(1)人間が自由に記述した自然言語クエリ、(2)クエリに関連する動画内の瞬間(moment)、(3)クエリに関連するすべてのクリップに対して5段階の注目度スコア(saliency score)。この包括的な注釈により、多様で柔軟なユーザークエリに対応する関連瞬間および注目度の高いハイライトを検出するためのシステムの開発と評価が可能となる。さらに、本タスクに対する強力なベースラインとして、Moment-DETRと呼ばれるTransformerエンコーダ・デコーダモデルを提示する。このモデルは、瞬間検出を直接的な集合予測問題として捉え、抽出された動画表現とクエリ表現を入力として受け取り、瞬間の座標と注目度スコアをエンドツーエンドで予測する。本モデルは人間の先験知識を一切使用していないが、高度に設計された既存アーキテクチャと比較しても競争力のある性能を示す。また、ASRによるキャプションを用いた弱教師あり事前学習を導入することで、Moment-DETRは従来の手法を大幅に上回る性能を達成している。最後に、Moment-DETRのいくつかの消去実験(ablation studies)および可視化結果も提示する。データとコードは、https://github.com/jayleicn/moment_detr にて公開されている。

QVHighlights:自然言語クエリを用いた動画内の瞬間およびハイライトの検出 | 最新論文 | HyperAI超神経