
ビジョン変換器(ViTs)およびMLP-Mixersは、手動で設計された特徴量や誘導的バイアス(inductive biases)を汎用的なニューラルアーキテクチャで置き換えるためのさらなる取り組みを示している。既存の研究では、大規模なデータを用いた事前学習や/および繰り返しの強力なデータ拡張によってモデルの性能を向上させているが、依然として最適化に関する問題(例えば初期化や学習率に対する敏感さ)が報告されている。本研究は、損失関数の幾何構造(loss geometry)の観点からViTsおよびMLP-Mixersを検討し、訓練時のデータ効率の向上と推論時の一般化性能の改善を目指す。可視化およびヘシアン(Hessian)解析により、収束したモデルが極めて鋭い局所最適解(sharp local minima)を持つことが明らかになった。近年提案されたシャープネス感知最適化手法(sharpness-aware optimizer)を用いて損失関数の滑らかさを促進することで、教師あり学習、敵対的学習、対比学習、転移学習といった多様なタスクにおいて、ViTsおよびMLP-Mixersの精度とロバスト性が著しく向上した(例:単純なInceptionスタイルの前処理を用いた場合、ViT-B/16とMixer-B/16はそれぞれImageNet上でトップ1精度が+5.3%および+11.0%向上)。また、滑らかさの向上は最初の数層における活性化されるニューロンのスパース性(sparse active neurons)に起因していることを示した。その結果得られたViTsは、大規模な事前学習や強力なデータ拡張を用いずにImageNet上でスクラッチから訓練された場合でも、サイズとスループットが類似するResNetを上回る性能を発揮した。モデルのチェックポイントは以下のURLで公開されている:\url{https://github.com/google-research/vision_transformer}。