SimMIM:マスク画像モデリングのためのシンプルなフレームワーク

本稿では、マスク画像モデリング(masked image modeling)のためのシンプルなフレームワーク「SimMIM」を提案する。近年提案された関連手法において、ブロック単位のマスキングや離散的VAEまたはクラスタリングを用いたトークン化といった特別な設計を排除することで、手法を大幅に簡素化した。マスク画像モデリングタスクが優れた表現を学習できる要因を明らかにするために、本フレームワークの主要な構成要素を体系的に検証した結果、各構成要素の単純な設計が非常に高い表現学習性能を示すことがわかった。具体的には、1)入力画像に対して中程度に大きなマスクパッチサイズ(例:32)を用いたランダムマスキングが強力な事前タスクとなること、2)複雑な設計を要するパッチ分類手法と比較して、直接回帰によりRGB値の生のピクセルを予測する手法が同等以上の性能を発揮すること、3)予測ヘッドは線形層程度の軽量構成でも、より重い構成と同等の性能を達成できることである。ViT-Bを用いた実験では、ImageNet-1Kデータセット上で事前学習を行い、微調整時に83.8%のトップ1精度を達成し、従来の最良手法を+0.6%上回った。さらに、約6億5千万パラメータを持つより大きなモデル(SwinV2-H)を用いた場合、ImageNet-1Kデータのみを用いてもトップ1精度87.1%を達成した。また、30億パラメータ規模のモデル(SwinV2-G)の学習を支援する目的で本手法を活用した結果、従来の実践に比べて学習データ量を40倍削減したにもかかわらず、4つの代表的な視覚ベンチマークにおいて最先端の性能を達成した。コードおよびモデルは、https://github.com/microsoft/SimMIM にて公開される予定である。