Verbesserung der Robustheit gegenüber allgemeinen Störungen durch Anpassung an Kovariatenverschiebung

Heutige State-of-the-Art-Modelle im Bereich maschinelles Sehen sind anfällig für Bildverfälschungen wie Unschärfe oder Kompressionsartefakte, was ihre Leistungsfähigkeit in vielen realen Anwendungen einschränkt. Wir argumentieren hier, dass gängige Benchmarks zur Messung der Robustheit gegenüber häufigen Bildverfälschungen (wie ImageNet-C) die Robustheit von Modellen in vielen (allerdings nicht allen) Anwendungsszenarien unterschätzen. Der entscheidende Einblick besteht darin, dass in vielen Szenarien mehrere unbeschriftete Beispiele der Verfälschungen verfügbar sind und für eine unsupervisierte Online-Anpassung genutzt werden können. Die Ersetzung der Aktivierungsstatistiken, die durch Batch-Normalization auf dem Trainingsdatensatz geschätzt werden, durch die Statistiken der verfälschten Bilder führt konsistent zu einer verbesserten Robustheit bei 25 unterschiedlichen populären Computer-Vision-Modellen. Unter Verwendung der korrigierten Statistiken erreicht ResNet-50 auf ImageNet-C eine mCE von 62,2 % im Vergleich zu 76,7 % ohne Anpassung. Mit dem robusteren DeepAugment+AugMix-Modell verbessern wir den bisherigen State of the Art, den ein ResNet-50-Modell erreicht hat, von 53,6 % mCE auf 45,4 % mCE. Bereits die Anpassung an ein einzelnes Beispiel führt zu einer Verbesserung der Robustheit sowohl bei ResNet-50 als auch bei AugMix, und bereits 32 Beispiele reichen aus, um den aktuellen State of the Art für die ResNet-50-Architektur zu übertreffen. Wir argumentieren, dass Ergebnisse mit angepassten Statistiken bei der Berichterstattung über Leistungswerte in Verfälschungsbenchmarks und anderen Szenarien der Out-of-Distribution-Verallgemeinerung stets berücksichtigt werden sollten.