
本論文では、従来のモデルと比べてトレーニング速度が高速かつパラメータ効率性が優れた新しい畳み込みニューラルネットワーク族であるEfficientNetV2を紹介する。このモデル族の開発において、トレーニングに配慮したニューラルアーキテクチャサーチ(NAS)とスケーリングを組み合わせ、トレーニング速度とパラメータ効率性を同時に最適化した。これらのモデルは、Fused-MBConvなどの新規演算子を含む拡張された探索空間から探索された。実験の結果、EfficientNetV2モデルは最先端モデルと比較して、最大6.8倍も小型化しつつ、はるかに高速にトレーニング可能であることが示された。さらに、トレーニング中に画像サイズを段階的に増加させる「プログレッシブ学習(progressive learning)」を適用することで、トレーニング速度をさらに向上させられるが、これにより精度が低下する傾向がある。この精度の低下を補うために、本研究ではドロップアウトやデータ拡張といった正則化手法を動的に調整する手法を提案する。これにより、高速なトレーニングと良好な精度の両立を実現できる。プログレッシブ学習を用いたEfficientNetV2は、ImageNetおよびCIFAR/Cars/Flowersなどのデータセットにおいて、従来のモデルを大きく上回る性能を発揮した。同じImageNet21kで事前学習を行った場合、EfficientNetV2はImageNet ILSVRC2012でトップ-1精度87.3%を達成し、最近のViT(Vision Transformer)を2.0%の精度差で上回った。しかも、同じ計算リソースを使用しても、トレーニング速度は5~11倍速い。コードは、https://github.com/google/automl/tree/master/efficientnetv2 にて公開される。