2ヶ月前
注目度ガイド付きDETRを用いた瞬間検索とハイライト検出
Gordeev, Aleksandr ; Dokholyan, Vladimir ; Tolstykh, Irina ; Kuprashevich, Maksim

要約
既存のビデオモーメント検索およびハイライト検出の手法は、テキストとビデオ特徴量を効率的にアラインメントすることができず、その結果、満足のいく性能が得られず、実際の製品への応用も限定的となっています。この問題に対処するために、我々は最近開発されたこのようなアラインメントに適した基盤的なビデオモデルを利用した新しいアーキテクチャを提案します。導入された注目度誘導クロスアテンション機構(Saliency-Guided Cross Attention mechanism)とハイブリッドDETRアーキテクチャを組み合わせることで、我々の手法はモーメント検索およびハイライト検出タスクにおいて大幅な性能向上を達成しています。さらなる改善のために、大規模かつ高品質な事前学習データセットInterVid-MRを開発しました。これを使用することで、我々のアーキテクチャはQVHighlights、Charades-STA、TACoSベンチマークで最先端の結果を達成しています。提案された手法は、ゼロショットおよびファインチューニングシナリオにおけるビデオ言語タスクに対して効率的かつ拡張可能な解決策を提供しています。