3ヶ月前

トレイン・テスト解像度の不一致を解消する:FixEfficientNet

Hugo Touvron, Andrea Vedaldi, Matthijs Douze, Hervé Jégou
トレイン・テスト解像度の不一致を解消する:FixEfficientNet
要約

本稿では、EfficientNet画像分類器の性能について、特に訓練画像とテスト画像の乖離を補正する最近の訓練手法を含む複数の最新訓練プロトコルを用いて広範な分析を行う。その結果得られたネットワークは「FixEfficientNet」と名付けられ、パラメータ数が同じ条件下で元のアーキテクチャを著しく上回る性能を示す。例えば、追加の訓練データを用いずに学習したFixEfficientNet-B0は、530万パラメータでImageNetにおいてトップ1精度79.3%を達成した。これは、3億枚のラベルなし画像を用いてノイズ付き学生学習(Noisy student)で学習されたEfficientNet-B0と比較して、絶対値で+0.5%の向上である。また、3億枚のラベルなし画像上で弱教師あり学習で事前学習したEfficientNet-L2をFixResによりさらに最適化した場合、トップ1精度は88.5%(トップ5:98.7%)に達し、単一クロップでのImageNetにおいて新たな最先端(state-of-the-art)を確立した。これらの性能向上は、通常のImageNet評価プロトコルよりも洗練されたクリーンな評価プロトコルを用いて徹底的に検証されており、特にImageNet-v2の実験設定(過学習のリスクが低いため)およびImageNet Real Labelsを用いた設定においても、本研究の改善効果が維持されることを示している。いずれの場合にも、新たな最先端性能を達成した。