
要約
時刻定位(Temporal Grounding)は、テキスト記述に対応するビデオ内の特定の瞬間やハイライトを特定することを指します。従来の時刻定位手法では、エンコーディングプロセスにおいて、テキストクエリとの意味的な関連性に関わらず、すべてのビデオクリップが同等に扱われます。したがって、我々はクロスモーダル注意の中でクエリに関連するビデオクリップへの手がかりを提供することを目指し、相関性ガイド付き検出トランスフォーマー(Correlation-Guided DEtection TRansformer: CG-DETR)を提案します。まず、ダミートークンを使用した適応的なクロスアテンションを設計しました。テキストクエリによって条件付けられたダミートークンは、注意重みの一部を受け取り、テキストクエリと無関係なビデオクリップが表現されることを防ぎます。しかし、すべての単語が同じようにテキストクエリとの相関性を受け継ぐわけではありません。そこで、ビデオクリップと単語との細かい相関性を推論することでクロスアテンションマップをさらにガイドします。これは、高レベル概念(つまり、瞬間と文レベル)のための共通埋め込み空間を学習し、クリップ-単語相関性を推論することで実現します。最後に、瞬間固有の特性を利用し、各ビデオのコンテキストと組み合わせて瞬間適応型注目度検出器を作成します。これにより、各ビデオクリップにおけるテキストへの関与度を利用して、各クリップのハイライト度を正確に測定できます。CG-DETRは様々なベンチマークで時刻定位に関する最先端の結果を達成しています。コードはhttps://github.com/wjun0830/CGDETR で入手可能です。