17日前

CoAtNet:すべてのデータサイズに対応する畳み込みとAttentionの統合

Zihang Dai, Hanxiao Liu, Quoc V. Le, Mingxing Tan
CoAtNet:すべてのデータサイズに対応する畳み込みとAttentionの統合
要約

トランスフォーマーはコンピュータビジョン分野において注目を集めつつあるが、依然として最先端の畳み込みネットワークに劣っている。本研究では、トランスフォーマーがより大きなモデル容量を持つ一方で、適切なインダクティブバイアス(帰納的偏り)が欠如しているため、一般化性能が畳み込みネットワークに劣る傾向にあることを示す。両アーキテクチャの長所を効果的に統合するため、我々は「CoAtNets(読み:コート・ネット)」と呼ばれるハイブリッドモデル群を提案する。このモデル群は以下の2つの重要な知見に基づいている:(1)単純な相対アテンション(relative attention)を用いることで、深度方向畳み込み(depthwise convolution)と自己アテンション(self-attention)を自然に統合できる;(2)畳み込み層とアテンション層を原理的なアプローチで垂直に積み重ねることで、一般化性能、モデル容量、効率性の向上が驚くほど効果的である。実験の結果、さまざまなデータセットにおいて異なるリソース制約下で、CoAtNetsが最先端の性能を達成することが明らかになった。特に、追加データを用いない状況下でも、CoAtNetはImageNetにおけるトップ-1精度86.0%を達成。ImageNet-21Kの1300万枚画像で事前学習した場合、トップ-1精度は88.56%に達し、JFT-300Mから3億枚の画像で事前学習されたViT-hugeと同等の性能を、学習データ量を23倍も削減して達成。さらに、JFT-3Bデータセットを用いてCoAtNetを拡張した場合、ImageNetにおけるトップ-1精度は90.88%に達し、新たな最先端の結果を樹立した。