
自然言語(NL)によるユーザークエリに応じて動画からカスタマイズされた瞬間やハイライトを検出することは、重要な課題であるが、これまで十分に研究されていない分野である。この分野における一つの課題は、アノテーション付きデータの不足にある。この問題に対処するため、本研究では「Query-based Video Highlights(QVHighlights)」データセットを提案する。このデータセットは、日常生活やライフスタイル系のVlog動画における日常的な活動や旅行、ニュース動画における社会的・政治的活動など、多様なトピックをカバーする10,000本以上のYouTube動画から構成されている。各動画には以下の3つのアノテーションが付与されている:(1)人間が自由形式で記述した自然言語クエリ、(2)そのクエリに関連する動画内の瞬間(moment)、(3)クエリに関連するすべてのクリップに対して5段階の注目度スコア(saliency score)。この包括的なアノテーションにより、多様で柔軟なユーザークエリに対して関連する瞬間および注目すべきハイライトを検出・評価するシステムの開発が可能となる。また、本タスクに対する強力なベースラインとして、Moment-DETRを提案する。これは、変換器(Transformer)エンコーダデコーダ構造を採用したモデルであり、瞬間検出を直接的な集合予測問題として定式化する。入力として抽出された動画表現とクエリ表現を用い、エンドツーエンドで瞬間の座標と注目度スコアを予測する。本モデルは人間の事前知識を一切使用しないが、精巧に設計された既存アーキテクチャと比較しても競争力のある性能を示す。さらに、ASRによるキャプションを用いた弱教師付き事前学習を導入することで、従来手法を大幅に上回る性能を達成した。最後に、Moment-DETRの複数のアブレーション実験および可視化結果を提示する。データセットとコードは、https://github.com/jayleicn/moment_detr にて公開されている。