FMix: Verbesserung der Mixed Sample Data Augmentation

Mixed Sample Data Augmentation (MSDA) hat in den letzten Jahren zunehmende Aufmerksamkeit erhalten, wobei zahlreiche erfolgreiche Varianten wie MixUp und CutMix entwickelt wurden. Durch die Untersuchung der gegenseitigen Information zwischen den Funktionen, die ein VAE auf den ursprünglichen Daten und auf den augmentierten Daten lernt, zeigen wir, dass MixUp die gelernten Funktionen in einer Weise verzerrt, die CutMix nicht tut. Dies belegen wir weiterhin dadurch, dass MixUp einer Form des adversarial training entspricht, indem es die Robustheit gegenüber Angriffen wie Deep Fool und Uniform Noise erhöht – Angriffe, die Beispiele erzeugen, die den durch MixUp generierten Beispielen ähneln. Wir argumentieren, dass diese Verzerrung verhindert, dass Modelle spezifische Merkmale einzelner Beispiele in den Daten erlernen, was die Generalisierungsfähigkeit fördert. Im Gegensatz dazu schlagen wir vor, dass CutMix eher einer traditionellen Datenaugmentation ähnelt, indem es die Leistung verbessert, ohne die Datenverteilung zu verzerren, indem es die Speicherung von Trainingsbeispielen verhindert. Wir argumentieren jedoch, dass eine MSDA, die auf CutMix basiert und Masken beliebiger Form – nicht nur quadratisch – nutzt, noch effektiver das Überanpassen verhindern könnte, während gleichzeitig die Datenverteilung erhalten bleibt. Dazu schlagen wir FMix vor, eine MSDA, die zufällige binäre Masken verwendet, die durch Anwenden einer Schwelle auf niedrigfrequente Bilder aus dem Fourier-Raum generiert werden. Diese zufälligen Masken können eine Vielzahl unterschiedlicher Formen annehmen und sind für eindimensionale, zweidimensionale und dreidimensionale Daten nutzbar. FMix verbessert die Leistung gegenüber MixUp und CutMix, ohne die Trainingszeit zu erhöhen, für mehrere Modelle über eine Vielzahl von Datensätzen und Problemstellungen hinweg und erreicht eine neue state-of-the-art-Ergebnis für ein einzelnes Modell auf CIFAR-10 ohne externe Daten. Schließlich zeigen wir, dass sich die Unterschiede zwischen interpolierenden MSDA-Verfahren wie MixUp und maskierenden MSDA-Verfahren wie FMix dazu nutzen lassen, beide Ansätze zu kombinieren, um die Leistung noch weiter zu steigern. Der Quellcode für alle Experimente ist unter https://github.com/ecs-vlc/FMix verfügbar.