17日前

ViTAEv2:画像認識およびそれ以上の分野におけるインダクティブバイアスの探索による視覚変換器の高度化

Qiming Zhang, Yufei Xu, Jing Zhang, Dacheng Tao
ViTAEv2:画像認識およびそれ以上の分野におけるインダクティブバイアスの探索による視覚変換器の高度化
要約

視覚変換器(Vision Transformers)は、自己注意(self-attention)機構を用いた長距離依存関係のモデル化能力に優れており、さまざまなコンピュータビジョンタスクにおいて大きな可能性を示している。しかし、画像を1次元の視覚トークン列として扱うため、局所的な視覚構造をモデル化する際の内在的な誘導バイアス(inductive bias, IB)やスケール変動への耐性が欠如しており、これらは大規模な学習データと長期間の訓練スケジュールを通じて間接的に学習されるにとどまる。本論文では、畳み込みから得られる内在的な誘導バイアスを探索することにより、視覚変換器を拡張した新モデル、すなわちViTAE(Vision Transformer Advanced by Exploring intrinsic IB from convolutions)を提案する。技術的には、ViTAEは複数の異なる拡張率(dilation rate)を持つ畳み込みを用いて、入力画像を多スケールの文脈情報を豊富に含むトークンにダウンサンプリング・埋め込みする複数の空間ピラミッドリダクションモジュールを搭載している。これにより、内在的なスケール不変性IBを獲得し、さまざまなスケールの物体に対しても堅牢な特徴表現を学習可能となる。さらに、各Transformer層において、マルチヘッド自己注意モジュールと並列に畳み込みブロックを配置し、その出力をフィードフォワードネットワークへ統合する。これにより、局所性に関する内在的な誘導バイアスを有し、局所特徴とグローバル依存関係を共同で学習することが可能となる。提案する2種類の基本セルを等方的(isotropic)かつマルチステージの構成で積み重ねることで、2つのViTAEモデルファミリー、すなわちヴァナイラViTAEとViTAEv2を構築した。ImageNetデータセットおよびMS COCO、ADE20K、AP10Kといった下流タスクにおける実験結果から、ベースラインのTransformerモデルおよび同時期の先行研究と比較して、本モデルの優位性が検証された。さらに、ViTAEモデルを644Mパラメータにスケーリングし、追加のプライベートデータを一切使用せずに、ImageNet検証セットで88.5%のTop-1分類精度、ImageNet Real検証セットで91.2%のTop-1精度という、現状で最も高い性能を達成した。

ViTAEv2:画像認識およびそれ以上の分野におけるインダクティブバイアスの探索による視覚変換器の高度化 | 最新論文 | HyperAI超神経