Amplitude-Phase-Rekombination: Eine Neubewertung der Robustheit von Faltungsneuralen Netzen im Frequenzbereich

Kürzlich ist das Generalisierungsverhalten von Convolutional Neural Networks (CNN) durch Erklärungstechniken, die auf einer Zerlegung in Frequenzkomponenten basieren, zunehmend transparent geworden. Dennoch wird die Bedeutung des Phasenspektrums einer Bildes für ein robusteres visuelles System weiterhin vernachlässigt. In dieser Arbeit stellen wir fest, dass CNN tendenziell in einem lokalen Optimum konvergieren, das eng mit den Hochfrequenzkomponenten der Trainingsbilder verknüpft ist, während das Amplitudenspektrum leicht durch Störungen wie Rauschen oder allgemeine Verfälschungen beeinflusst wird. Im Gegensatz dazu zeigen empirische Studien, dass Menschen zur Erzielung robuster Erkennung vor allem auf Phasenkomponenten zurückgreifen. Diese Beobachtung ermöglicht eine tiefere Erklärung des Generalisierungsverhaltens von CNNs sowohl hinsichtlich Robustheit gegenüber allgemeinen Störungen als auch hinsichtlich der Erkennung von Daten außerhalb der Trainingsverteilung (out-of-distribution detection). Sie motiviert zudem einen neuen Ansatz für Datenaugmentation, bei dem das Phasenspektrum des aktuellen Bildes mit dem Amplitudenspektrum eines Störbildes (distracter image) neu kombiniert wird. Die dadurch generierten Samples zwingen die CNNs, stärker auf strukturierte Informationen aus den Phasenkomponenten zu achten und gleichzeitig robust gegenüber Variationen im Amplitudenspektrum zu bleiben. Experimente an mehreren Bild-Datensätzen zeigen, dass die vorgeschlagene Methode state-of-the-art-Leistungen bei mehreren Generalisierungs- und Kalibrierungsaufgaben erzielt, darunter Anpassungsfähigkeit gegenüber allgemeinen Verfälschungen und Oberflächenvariationen, Erkennung von Daten außerhalb der Verteilung sowie Resilienz gegenüber adversariellen Angriffen.