概要

テキストガイド付きビデオ時間的定位（VTG）は、テキスト記述に基づいて未編集のビデオ内で関連するセグメントを特定することを目指しており、モーメント検索（MR）とハイライト検出（HD）という2つのサブタスクを含んでいます。これまでの典型的な手法は優れた結果を達成していますが、短いビデオモーメントの検索は依然として困難です。これは主に、疎で限られたデコーダークエリへの依存により、予測の精度が大幅に制約されるためです。さらに、以前の手法では個別の予測に基づいてランキングを行っているため、より広範なビデオコンテクストが無視され、最適でない結果がしばしば生じています。これらの課題に対処するために、私たちはFlashVTGというフレームワークを導入します。このフレームワークには、時間的特徴層化（TFL）モジュールと適応的なスコア精緻化（ASR）モジュールが特徴的に含まれています。TFLモジュールは伝統的なデコーダー構造に代わり、複数の時間的スケールにおける微妙なビデオコンテンツ変動を捉えるために設計されています。一方、ASRモジュールは隣接するモーメントや多時間的スケール特徴からコンテクストを取り入れることで予測ランキングを改善します。広範な実験によって示されているように、FlashVTGは両方のタスクにおいて4つの広く採用されているデータセットで最先端の性能を達成しています。特にQVHighlightsデータセットでは、MRにおいてmAPが5.8%向上し、HDにおいて3.3%向上しました。短いモーメントの検索に関しては、FlashVTGは以前の最先端性能に対してmAPを125%にまで引き上げています。これらの改善は追加の学習負担なしに行われており、その効果性が強調されています。私たちのコードは以下のURLから入手可能です: https://github.com/Zhuo-Cao/FlashVTG.

ソースPDF