17日前

スケーリング・ビジョン・トランスフォーマー

Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer

要約

視覚変換器（Vision Transformer: ViT）をはじめとする注目メカニズムを備えたニューラルネットワークは、近年、多くのコンピュータビジョンベンチマークで最先端の成果を達成している。優れた性能を発揮するためにはスケーリングが重要な要素であり、モデルのスケーリング特性を理解することは、次世代モデルを効果的に設計する上で鍵となる。一方で、変換器ベースの言語モデルのスケーリング則については既に多くの研究が行われているが、Vision Transformerのスケーリング特性については未解明の点が多い。本研究では、ViTモデルおよびデータのスケーリングを上下両方向に実施し、誤差率、データ量、計算量の間の関係を体系的に分析した。その過程で、ViTのアーキテクチャおよび学習プロトコルを精緻化し、メモリ消費を削減するとともに、モデルの精度を向上させた。その結果、20億パラメータを有するViTモデルを成功裏に訓練し、ImageNetにおいて90.45％のトップ1精度という新たな最先端水準を達成した。また、少サンプル転移学習においても優れた性能を発揮し、クラス1つあたり10サンプルのみを用いた場合でも、ImageNetで84.86％のトップ1精度を達成した。