11日前

アーキテクチャに依存しないマスク画像モデリング ― ViTからCNNへ再考

Siyuan Li, Di Wu, Fang Wu, Zelin Zang, Stan.Z.Li
アーキテクチャに依存しないマスク画像モデリング ― ViTからCNNへ再考
要約

マスク画像モデリング(Masked Image Modeling, MIM)は、視覚変換器(Vision Transformers)を用いた多数の下流ビジョンタスクにおいて、驚くべき成功を収めた新興の自己教師付き事前学習手法である。その基本的なアイデアは単純である:入力画像の一部をマスクし、その後、事前テキストタスクを通じて再構成する。しかし、MIMの背後にある動作原理については十分に解明されておらず、従来の研究では、MIMは変換器系モデルに主に有効であり、CNN(畳み込みニューラルネットワーク)とは互換性がないとされてきた。本研究では、MIMが本質的に、画像パッチ間のより高次の相互作用を学習させることで、汎用性の高い特徴抽出を可能にするものであることに着目した。これに基づき、変換器とCNNの両方に統一的に対応可能なアーキテクチャに依存しないマスク画像モデリングフレームワーク(Architecture-Agnostic Masked Image Modeling, A²MIM)を提案する。代表的なベンチマークにおける広範な実験結果から、A²MIMは明示的な設計を必要とせずに、より優れた表現を学習し、バックボーンモデルがさまざまな下流タスクへの転移能力を強化することを示した。

アーキテクチャに依存しないマスク画像モデリング ― ViTからCNNへ再考 | 最新論文 | HyperAI超神経