17日前

視覚向けMetaFormerベースライン

Weihao Yu, Chenyang Si, Pan Zhou, Mi Luo, Yichen Zhou, Jiashi Feng, Shuicheng Yan, Xinchao Wang
視覚向けMetaFormerベースライン
要約

MetaFormerは、Transformerの抽象化されたアーキテクチャとして、競争力のある性能を達成する上で重要な役割を果たしていることが明らかになっている。本論文では、さらにMetaFormerの潜在能力を検証する。ただし、トークンミキサーの設計に焦点を当てることなく、最も基本的あるいは一般的なミキサーを用いた複数のベースラインモデルを導入し、以下の観察結果をまとめた。(1)MetaFormerは堅牢な性能下限を保証する。単に恒等写像(identity mapping)をトークンミキサーとして採用した場合でも、そのMetaFormerモデル(IdentityFormer)はImageNet-1Kにおいて80%以上の精度を達成している。(2)MetaFormerは任意のトークンミキサーと良好に連携する。たとえトークンミキサーとしてランダム行列を用いても、その結果得られるモデル(RandFormer)は81%以上の精度を達成し、IdentityFormerを上回る性能を発揮する。新しいトークンミキサーを採用した場合でも、MetaFormerの結果に信頼を置くことができる。(3)MetaFormerは容易に最先端の性能を実現する。5年前に開発された従来のトークンミキサーを用いて構築したモデルでも、MetaFormerから導かれるモデルはすでに最先端の性能を上回っている。(a)ConvFormerはConvNeXtを上回る。一般的な深さ方向可分畳み込み(depthwise separable convolutions)をトークンミキサーとして用いたモデルであるConvFormerは、純粋なCNNと見なせるが、強力なCNNモデルであるConvNeXtを上回る性能を示した。(b)CAFormerはImageNet-1Kにおいて新記録を樹立した。下位段階では深さ方向可分畳み込みを、上位段階では通常の自己注意機構(vanilla self-attention)をトークンミキサーとして単純に適用した結果、CAFormerは外部データや知識蒸留(distillation)を用いずに、通常の教師あり学習で224×224解像度において85.5%の精度を達成し、ImageNet-1Kにおける新記録を樹立した。MetaFormerの探求過程において、新たな活性化関数であるStarReLUが、GELUと比較して活性化処理のFLOPsを71%削減しつつ、より優れた性能を達成することも発見した。StarReLUは、MetaFormer型モデルのみならず、他のニューラルネットワークにおいても大きな潜在力を有すると期待される。

視覚向けMetaFormerベースライン | 最新論文 | HyperAI超神経