19日前

MAR:効率的な行動認識のためのマスク自動符号化器

Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Xiang Wang, Yuehuan Wang, Yiliang Lv, Changxin Gao, Nong Sang
MAR:効率的な行動認識のためのマスク自動符号化器
要約

動画認識の従来のアプローチは通常、入力動画全体を処理するため、動画に広く見られる空間時間的冗長性のため、非効率である。近年のマスク付き動画モデリング(例:VideoMAE)の進展により、単純なビジョン変換器(ViT)が限られた視覚的コンテンツからでも空間時間的文脈を補完できることが示された。この知見に着想を得て、本研究では「マスク付き行動認識(Masked Action Recognition, MAR)」を提案する。MARは、一部のパッチを無視して動画の一部のみを処理することで、冗長な計算を削減する。MARは以下の二つの不可欠な構成要素からなる:セル単位のランニングマスク(cell running masking)とブリッジ分類器(bridging classifier)。具体的には、ViTが可視パッチを超える詳細を容易に捉えられるようにするため、セル単位のランニングマスクを導入し、動画内の空間時間的相関を保持する。これにより、同じ空間位置にあるパッチが順次観測され、再構成が容易になる。さらに、部分的に観測された特徴量は意味的に明確な非可視パッチを再構成できるものの、正確な分類には至らないことが明らかになった。この課題に対処するため、再構成用にエンコードされたViT特徴量と分類専用の特徴量との間の意味的ギャップを埋めるブリッジ分類器を提案する。提案手法MARは、ViTの計算コストを53%削減し、広範な実験により、既存のViTモデルと比較して一貫して顕著な優位性を示した。特に、MARによって訓練されたViT-Largeは、標準的な訓練手法で学習されたViT-HugeよりもKinetics-400およびSomething-Something v2の両データセットで明確な優位性を示した一方で、ViT-Largeの計算オーバーヘッドはViT-Hugeのわずか14.5%にとどまった。

MAR:効率的な行動認識のためのマスク自動符号化器 | 最新論文 | HyperAI超神経