HyperAIHyperAI

Command Palette

Search for a command to run...

アーキテクチャに依存しないマスク画像モデリング ― ViTからCNNへ再考

Siyuan Li Di Wu Fang Wu Zelin Zang Stan.Z.Li

概要

マスク画像モデリング(Masked Image Modeling, MIM)は、視覚変換器(Vision Transformers)を用いた多数の下流ビジョンタスクにおいて、驚くべき成功を収めた新興の自己教師付き事前学習手法である。その基本的なアイデアは単純である:入力画像の一部をマスクし、その後、事前テキストタスクを通じて再構成する。しかし、MIMの背後にある動作原理については十分に解明されておらず、従来の研究では、MIMは変換器系モデルに主に有効であり、CNN(畳み込みニューラルネットワーク)とは互換性がないとされてきた。本研究では、MIMが本質的に、画像パッチ間のより高次の相互作用を学習させることで、汎用性の高い特徴抽出を可能にするものであることに着目した。これに基づき、変換器とCNNの両方に統一的に対応可能なアーキテクチャに依存しないマスク画像モデリングフレームワーク(Architecture-Agnostic Masked Image Modeling, A²MIM)を提案する。代表的なベンチマークにおける広範な実験結果から、A²MIMは明示的な設計を必要とせずに、より優れた表現を学習し、バックボーンモデルがさまざまな下流タスクへの転移能力を強化することを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています