2ヶ月前

選択的構造状態空間による長編ビデオ理解

Jue Wang; Wentao Zhu; Pichao Wang; Xiang Yu; Linda Liu; Mohamed Omar; Raffay Hamid
選択的構造状態空間による長編ビデオ理解
要約

長尺ビデオにおける複雑な時空間依存関係の効果的なモデリングは依然として未解決の問題である。最近提案された線形複雑度を持つ構造化状態空間シーケンス(S4)モデルは、この分野において有望な方向性を示している。しかし、S4モデルがすべての画像トークンを平等に扱うことで、その効率性和正確性に悪影響を与える可能性があることを示した。この制限に対処するため、軽量なマスクジェネレータを使用して情報量のある画像トークンを選択的に抽出し、長尺ビデオでの長期的な時空間依存関係をより効率的かつ正確にモデリングする新しい選択的S4(すなわちS5)モデルを提案する。従来のトランスフォーマーで使用されるマスクベースのトークン削減手法とは異なり、当社のS5モデルはモメンタム更新されたS4モデルのガイダンスを利用して密集型自己注意計算を回避する。これにより、情報量が少ないトークンを効率的に破棄し、さまざまな長尺ビデオ理解タスクに適応することが可能となる。ただし、ほとんどのトークン削減手法と同様に、情報量のある画像トークンが誤って破棄される可能性がある。当社のモデルの堅牢性と時間的範囲を向上させるために、新しい長期-短期マスク対照学習(Long-Short Masked Contrastive Learning: LSMCL)手法を提案する。これにより、短い入力ビデオを使用してより長い時間的コンテキストを予測することが可能となる。3つの挑戦的な長尺ビデオ理解データセット(LVU, COIN, Breakfast)を使用した広範な比較実験結果を提示し、当社の手法が最大9.6%の精度向上と23%のメモリ使用量削減という点で従来の最先端S4モデルを超える一貫性のある性能を示していることを示した。