Behebung der Auflösungsdisparität zwischen Trainings- und Testphase: FixEfficientNet

Diese Arbeit liefert eine umfassende Analyse der Leistung von EfficientNet-Bildklassifizierern in Kombination mit mehreren jüngsten Trainingsverfahren, insbesondere einem, das die Diskrepanz zwischen Trainings- und Testbildern korrigiert. Das resultierende Netzwerk, FixEfficientNet genannt, übertrifft die ursprüngliche Architektur mit gleicher Parameteranzahl erheblich.Beispielsweise erreicht unser FixEfficientNet-B0, der ohne zusätzliche Trainingsdaten trainiert wurde, eine Top-1-Accuracy von 79,3 % auf ImageNet mit 5,3 Mio. Parametern – eine absolute Verbesserung um +0,5 % gegenüber dem Noisy-Student-EfficientNet-B0, der mit 300 Mio. unlabeled Bildern trainiert wurde. Ein EfficientNet-L2, das mit schwacher Aufsicht auf 300 Mio. unlabeled Bildern vortrainiert und anschließend mit FixRes weiter optimiert wurde, erzielt eine Top-1-Accuracy von 88,5 % (Top-5: 98,7 %), was die neue State-of-the-Art-Leistung für ImageNet mit einer einzigen Crop-Prädiktion darstellt.Diese Verbesserungen werden mit saubereren Evaluationsprotokollen bewertet, die sich von den üblicherweise für ImageNet verwendeten unterscheiden. Insbesondere zeigen wir, dass unsere Verbesserungen auch im experimentellen Setup von ImageNet-v2 bestehen bleiben, das weniger anfällig für Overfitting ist, sowie bei Verwendung von ImageNet Real Labels. In beiden Fällen etablieren wir zudem die neue State-of-the-Art-Leistung.