Permutiertes AdaIN: Reduzierung des Bias gegenüber globalen Statistiken bei der Bildklassifikation

Kürzliche Arbeiten haben gezeigt, dass Klassifikatoren basierend auf Faltungsneuronalen Netzen übermäßig auf Texturen setzen, während sie Forminformationen vernachlässigen. Wir treffen eine ähnliche, jedoch unterschiedliche Unterscheidung zwischen Form und lokalen Bildmerkmalen einerseits sowie globalen Bildstatistiken andererseits. Unsere Methode, namens Permuted Adaptive Instance Normalization (pAdaIN), reduziert die Repräsentation globaler Statistiken in den versteckten Schichten von Bildklassifikatoren. pAdaIN wählt eine zufällige Permutation $π$ aus, die die Reihenfolge der Samples in einer gegebenen Batch umordnet. Anschließend wird Adaptive Instance Normalization (AdaIN) zwischen den Aktivierungen jedes (nicht-permutierten) Samples $i$ und den entsprechenden Aktivierungen des Samples $π(i)$ angewandt, wodurch statistische Eigenschaften zwischen den Samples der Batch ausgetauscht werden. Da die globalen Bildstatistiken dadurch verzerrt werden, zwingt dieser Austauschprozess das Netzwerk, sich stärker auf Merkmale wie Form oder Textur zu stützen. Durch die Wahl der zufälligen Permutation mit Wahrscheinlichkeit $p$ und ansonsten der Identitätspermutation lässt sich die Stärke des Effekts kontrollieren.Bei geeigneter Wahl von $p$, die a priori für alle Experimente festgelegt wird und ohne Berücksichtigung der Testdaten erfolgt, übertrifft unsere Methode konsistent Baselines in mehreren Szenarien. In der Aufgabe der Bildklassifikation verbessert unsere Methode sowohl CIFAR100 als auch ImageNet bei mehreren Architekturen. Im Kontext der Robustheit erzielt unsere Methode Verbesserungen sowohl für ImageNet-C als auch für CIFAR100-C bei mehreren Architekturen. In den Szenarien der Domänenanpassung und Domänenverallgemeinerung erzielt unsere Methode state-of-the-art Ergebnisse beim Transferlernen von GTAV nach Cityscapes sowie auf dem PACS-Benchmark.