2ヶ月前

マスク付き画像モデリングの暗い秘密を明らかにする

Zhenda Xie; Zigang Geng; Jingcheng Hu; Zheng Zhang; Han Hu; Yue Cao
マスク付き画像モデリングの暗い秘密を明らかにする
要約

マスク付き画像モデリング(MIM)を事前学習として用いることが、多くの視覚的な下流タスクに対して効果的であることが示されていますが、その効果のメカニズムや作用部位は依然として不明瞭です。本論文では、可視化と実験という2つの観点から、MIMと長年主流であった教師あり事前学習モデルを比較し、両者の主要な表現上の違いを明らかにします。可視化の結果から、MIMは訓練済みモデルのすべての層に局所的誘導バイアスをもたらす一方で、教師ありモデルは低層では局所的に焦点を当てますが、高層ではより大域的に焦点を当てる傾向があることがわかりました。これがMIMが非常に広い受容野を持つビジョントランスフォーマーの最適化に寄与する理由かもしれません。MIMを使用することで、モデルはすべての層において注意ヘッドの大規模な多様性を維持できます。しかし、教師ありモデルでは最後の3つの層で注意ヘッドの多様性がほとんど消失し、多様性の低下は微調整性能に悪影響を与える可能性があります。実験からは、MIMモデルが意味論的な情報が弱い幾何学的および運動タスクや細かい分類タスクにおいて、教師ありモデルよりも著しく優れた性能を発揮することがわかりました。特別な工夫なしに標準的なMIM事前学習済みSwinV2-Lは姿勢推定(COCO test-devで78.9 APおよびCrowdPoseで78.0 AP)、深度推定(NYUv2で0.287 RMSEおよびKITTIで1.966 RMSE)、ビデオオブジェクト追跡(LaSOTで70.7 SUC)において最先端の性能を達成しました。また、教師あり事前学習によって十分にカバーされている意味論的理解データセットでも、MIMモデルは競争力のある転移性能を達成しています。MIMに対するより深い理解を得ることにより、我々はこの方向性における新たなかつ堅固な研究へのインスピレーションとなることを期待しています。

マスク付き画像モデリングの暗い秘密を明らかにする | 最新論文 | HyperAI超神経