2ヶ月前

クエリーツース: ビデオサマリ化のための双方向ミックスアテンションメタ学習

Junyan Wang; Yang Bai; Yang Long; Bingzhang Hu; Zhenhua Chai; Yu Guan; Xiaolin Wei
クエリーツース: ビデオサマリ化のための双方向ミックスアテンションメタ学習
要約

ビデオサマリゼーションは、代表的なフレームを選択して高レベルの情報を保持することを目的としており、通常はセグメントごとの重要度スコアをソフトマックス関数を用いて予測することで解決されます。しかし、ソフトマックス関数は複雑な視覚情報や順序情報の高位表現を保持する上で問題があり、これはソフトマックスボトルネック問題と呼ばれています。本論文では、このソフトマックスボトルネック問題に対処するため、メタラーニングを用いた新しいフレームワークであるデュアルミクスチャーアテンション(DMASum)モデルを提案します。このモデルにおいて、アテンション層の混合(Mixture of Attention layer: MoA)が効果的にモデル容量を増加させることで、初期のクエリ-キー注意に加えて二次変化も捉えることができるようになっています。さらに、新しい単一フレームメタラーニング則が導入され、限られた訓練データを持つ小さなデータセットに対する汎化能力が向上します。また、DMASumは視覚的注意と順序的注意の両方を大幅に活用し、局所的なキーフレームと全体的な注意を累積的に結びつけることで機能します。私たちはSumMeおよびTVSumという2つの公開データセットに対して新しい評価プロトコルを採用しました。定性的および定量的な実験結果は、最先端の手法に対して著しい改善が見られることを示しています。

クエリーツース: ビデオサマリ化のための双方向ミックスアテンションメタ学習 | 最新論文 | HyperAI超神経