16日前

マスクされた特徴予測による自己教師付き視覚前学習

Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, Christoph Feichtenhofer
マスクされた特徴予測による自己教師付き視覚前学習
要約

ビデオモデルの自己教師付き事前学習のため、マスク特徴予測(Masked Feature Prediction, MaskFeat)を提案する。本手法は、入力シーケンスの一部をランダムにマスクし、そのマスク領域の特徴を予測するアプローチを採用する。5種類の異なる特徴量を検討した結果、手作業で設計された特徴記述子である方向勾配ヒストグラム(Histograms of Oriented Gradients, HOG)が、性能と効率の両面で特に優れた結果を示した。また、HOGにおける局所コントラスト正規化が良好な結果を得るために不可欠であることを観察した。これは、視覚認識にHOGを用いた従来の研究と整合する結果である。本手法は豊富な視覚知識を学習可能であり、大規模なTransformerベースのモデルの学習を促進する。追加のモデルパラメータや教師信号を用いずに、ラベルなし動画で事前学習したMaskFeatは、Kinetics-400でMViT-Lを用いて86.7%、Kinetics-600で88.3%、Kinetics-700で80.4%、AVAでは39.8 mAP、SSv2では75.0%という、これまでにない高い性能を達成した。さらに、MaskFeatは画像入力にも一般化可能であり、単一フレームの動画と見なせるため、ImageNetにおいても競争力ある結果を獲得した。

マスクされた特徴予測による自己教師付き視覚前学習 | 最新論文 | HyperAI超神経