EfficientNetV2: Kleinere Modelle und schnelleres Training

Diese Arbeit stellt EfficientNetV2 vor, eine neue Familie von Faltungsnetzwerken, die eine schnellere Trainingsgeschwindigkeit und eine bessere Parameter-Effizienz im Vergleich zu früheren Modellen aufweisen. Um diese Modellfamilie zu entwickeln, kombinieren wir ein trainingsbewusstes neuronales Architektursuchverfahren mit Skalierung, um Trainingsgeschwindigkeit und Parameter-Effizienz gemeinsam zu optimieren. Die Modelle wurden aus einem erweiterten Suchraum entworfen, der neue Operationen wie Fused-MBConv enthält. Unsere Experimente zeigen, dass EfficientNetV2-Modelle deutlich schneller trainiert werden können als aktuelle State-of-the-Art-Modelle, während sie bis zu 6,8-fach kleiner sind.Unser Training kann weiter beschleunigt werden, indem die Bildgröße während des Trainings schrittweise erhöht wird; dies führt jedoch häufig zu einem Genauigkeitsverlust. Um diesen Genauigkeitsverlust auszugleichen, schlagen wir vor, die Regularisierung (z. B. Dropout und Datenaugmentation) adaptiv anzupassen, sodass sowohl eine schnelle Training als auch eine hohe Genauigkeit erreicht werden können.Durch den Einsatz des progressiven Lernens übertrifft unser EfficientNetV2 die bisherigen Modelle erheblich auf den Datensätzen ImageNet sowie CIFAR/Cars/Flowers. Bei Vortrainierung auf demselben ImageNet21k erreicht EfficientNetV2 eine Top-1-Genauigkeit von 87,3 % auf ImageNet ILSVRC2012 – dies übertrifft das jüngste ViT um 2,0 % Genauigkeit, während das Training mit denselben Rechenressourcen 5- bis 11-mal schneller erfolgt. Der Quellcode wird unter https://github.com/google/automl/tree/master/efficientnetv2 verfügbar sein.