Adversarische Robustheit durch lokale Linearisierung

Das adversarische Training ist eine effektive Methodik zur Schulung tiefer neuronaler Netze, die robust gegen adversarische, normbeschränkte Störungen sind. Allerdings wächst der Rechenaufwand des adversarischen Trainings mit zunehmender Modellgröße und Anzahl der Eingabedimensionen bis zu einem unzumutbaren Maß. Zudem führt das Training gegen weniger aufwendige und daher schwächere Gegner zu Modellen, die zwar robust gegen schwache Angriffe sind, aber bei stärkeren Angriffen zusammenbrechen. Dies wird oft dem Phänomen der Gradientenverwirrung zugeschrieben; solche Modelle haben in der Nähe von Trainingsbeispielen eine stark nichtlineare Verlustoberfläche, was es für gradientenbasierte Angriffe schwierig macht, erfolgreich zu sein, obwohl adversarische Beispiele weiterhin existieren. In dieser Arbeit stellen wir einen neuen Regularisierer vor, der das lineare Verhalten des Verlustes in der Nähe der Trainingsdaten fördert und somit die Gradientenverwirrung bestraft und Robustheit ermutigt. Durch umfangreiche Experimente auf CIFAR-10 und ImageNet zeigen wir, dass Modelle, die mit unserem Regularisierer trainiert wurden, die Gradientenverwirrung vermeiden können und erheblich schneller trainiert werden als durch adversarisches Training. Mit diesem Regularisierer übertreffen wir den aktuellen Stand der Technik und erreichen eine adversarische Genauigkeit von 47 % für ImageNet bei l-unendlich-adversarischen Störungen (l-infinity adversarial perturbations) mit einem Radius von 4/255 unter einem ungerichteten, starken, weißschachtel-Angriff (untargeted, strong, white-box attack). Zudem erreichen wir den Stand der Technik für CIFAR-10 bei 8/255.