
要約
視覚変換器(Vision Transformer: ViT)をはじめとする注目メカニズムを備えたニューラルネットワークは、近年、多くのコンピュータビジョンベンチマークで最先端の成果を達成している。優れた性能を発揮するためにはスケーリングが重要な要素であり、モデルのスケーリング特性を理解することは、次世代モデルを効果的に設計する上で鍵となる。一方で、変換器ベースの言語モデルのスケーリング則については既に多くの研究が行われているが、Vision Transformerのスケーリング特性については未解明の点が多い。本研究では、ViTモデルおよびデータのスケーリングを上下両方向に実施し、誤差率、データ量、計算量の間の関係を体系的に分析した。その過程で、ViTのアーキテクチャおよび学習プロトコルを精緻化し、メモリ消費を削減するとともに、モデルの精度を向上させた。その結果、20億パラメータを有するViTモデルを成功裏に訓練し、ImageNetにおいて90.45%のトップ1精度という新たな最先端水準を達成した。また、少サンプル転移学習においても優れた性能を発揮し、クラス1つあたり10サンプルのみを用いた場合でも、ImageNetで84.86%のトップ1精度を達成した。