2ヶ月前
ギャップの架橋:一貫したビデオ理解フレームワークによるモーメント検索とハイライト検出
Xiao, Yicheng ; Luo, Zhuoyan ; Liu, Yong ; Ma, Yue ; Bian, Hengwei ; Ji, Yatai ; Yang, Yujiu ; Li, Xiu

要約
ビデオ・モーメント検索(MR)とハイライト検出(HD)は、ビデオ分析の需要が増加していることに伴い、大きな注目を集めています。最近のアプローチでは、MRとHDを類似したビデオ・グラウンディング問題として扱い、トランスフォーマーに基づくアーキテクチャで両方を同時に解決しようと試みています。しかし、我々はMRとHDの重点が異なることを観察しました。一方は局所的な関係性の認識を必要とし、他方は全体的な文脈の理解を優先します。したがって、タスク固有の設計がない場合、これらの2つのタスクの内在する特性を結びつける上で制限が避けられないでしょう。この課題に対処するために、我々は統一されたビデオ理解フレームワーク(UVCOM: Unified Video COMprehension framework)を提案します。これにより、局所的な関係性と全体的な文脈の理解というギャップを埋め、効果的にMRとHDを共同で解決することができます。UVCOMは、多粒度間でのモダリティ内およびモダリティ間での段階的な統合を行うことで、ビデオ処理における包括的理解を達成します。さらに、我々は多面的なコントラスティブ学習を提示し、適切に整列された多様なモダリティ空間を通じて局所的な関係モデル化と全体的な知識蓄積を強化します。QVHighlights, Charades-STA, TACoS, YouTube Highlights, TVSumデータセットにおいて広範な実験を行った結果、UVCOMの有効性と合理性が示されました。UVCOMは現行の最先端手法よりも著しく高い性能を発揮しています。