
要約
ビデオ・モーメント検索(MR)は、与えられた自然言語のクエリに基づいてビデオ内の特定の瞬間を局所化することを目指しています。YouTubeなどのプラットフォームが情報検索に広く利用されていることから、MR技術の需要は著しく増加しています。最近のDETRベースのモデルは性能向上において顕著な進歩を遂げていますが、短い瞬間を正確に局所化する点では依然として課題を抱えています。データ分析を通じて、短い瞬間に特徴量の多様性が限られていることが明らかになりました。この発見がMomentMixの開発を促しました。MomentMixは、ForegroundMixとBackgroundMixという2つの拡張戦略を採用しており、それぞれ前景と背景の特徴表現を強化します。さらに、予測バイアスの分析により、短い瞬間が特にその中心位置を正確に予測することが困難であることがわかりました。これを解決するために、新しい二部マッチングプロセスを通じて長さを条件付けするLength-Aware Decoder(長さ認識デコーダ)を提案します。私たちの広範な研究は、長さ認識アプローチの効果性を示しており、特に短い瞬間の局所化において全体的な性能向上につながっています。当手法はベンチマークデータセットで最先端のDETRベース手法を超える結果を示し、QVHighlightsでは最高のR1とmAP([email protected]で2.46%向上、mAP平均で2.57%向上)、TACoSとCharades-STAでは最高の[email protected](2.46%向上)を達成しました。コードは以下のURLから入手可能です:https://github.com/sjpark5800/LA-DETR。