VideoLights: 特徴洗練とクロスタスクアライメント変換器を用いた 動画ハイライト検出とモーメント検索の統合

ビデオハイライト検出とモーメントリトリーバル(HD/MR)は、ビデオ分析において重要な役割を果たします。最近の統合予測トランスフォーマーモデルでは、多くの場合、タスク間の動態とビデオ-テキストのアライメントや精緻化が軽視されています。さらに、これらのモデルの多くは単方向の注意機構のみを使用するため、弱い統合表現となり、ビデオとテキストモダリティ間の相互依存関係を捉える性能が低下しています。大規模言語モデルおよびビジョン-言語モデル(LLM/LVLMs)は様々な分野で注目を集めていますが、この分野での応用はまだ十分に研究されていません。本稿では、これらの制約を解決するために新しいHD/MRフレームワーク「VideoLights」を提案します。具体的には、(i) 畳み込み射影と特徴量精緻化モジュールを導入し、アライメント損失を使用することでより良いビデオ-テキスト特徴量アライメントを実現します。(ii) 双方向クロスモーダル融合ネットワークにより、クエリ感知クリップ表現を強く結合させます。(iii) 単方向の統合タスクフィードバックメカニズムを採用し、両タスクの相関性を通じて性能向上を目指します。また、(iv) 適応的な誤差罰則と学習改善のためにハードポジティブ/ネガティブ損失を導入し、(v) BLIP-2などのLVLMsを利用することで合成データから生成されたマルチモーダル特徴量統合と知能的な事前学習を行います。QVHighlights, TVSum, および Charades-STA ベンチマークにおける包括的な実験結果は最先端の性能を示しており、「VideoLights」の有効性が確認されました。コードとモデルは https://github.com/dpaul06/VideoLights で公開されています。