2ヶ月前
LD-DETR: ループデコーダーDEtection TRansformerを用いたビデオモーメント検索およびハイライト検出
Zhao, Pengcheng ; He, Zhixian ; Zhang, Fuwei ; Lin, Shujin ; Zhou, Fan

要約
ビデオモーメント検索とハイライト検出は、テキストクエリに基づいてビデオ内の対応するコンテンツを見つけることを目指しています。既存のモデルは通常、まずコントラスティブ学習手法を使用してビデオとテキストの特徴を合わせ、次に多様なモーダル情報を融合・抽出し、最後にトランスフォーマーデコーダーを使用して多様なモーダル情報をデコードします。しかし、既存の手法にはいくつかの問題があります:(1) データセット内の異なるサンプル間での意味情報の重複がモデルの多様なモーダル情報の合わせ性能を阻害します;(2) 既存のモデルは効率的にビデオの局所特徴を抽出できません;(3) 既存モデルで使用されるトランスフォーマーデコーダーは十分に多様なモーダル情報をデコードできません。これらの問題に対処するために、我々はビデオモーメント検索とハイライト検出タスク向けにLD-DETRモデルを提案しました。具体的には、まず類似行列を単位行列に蒸留することで、意味情報の重複による影響を軽減しました。次に、畳み込み層がより効率的に多様な局所特徴を抽出できるようにする方法を設計しました。最後に、トランスフォーマーデコーダーの出力を自らに戻すことで、十分に多様なモーダル情報をデコードできるようにしました。我々はLD-DETRを4つの公開ベンチマークで評価し、広範な実験を行って当該アプローチの優越性と有効性を示しました。当該モデルはQVHighlight, Charades-STA, TACoSデータセットにおいて最先端(SOTA)モデルを超える性能を発揮しています。当該コードはhttps://github.com/qingchen239/ld-detrで入手可能です。