Glatte adversariale Trainingsweise

Es wird allgemein angenommen, dass Netzwerke nicht gleichzeitig genau und robust sein können, wobei eine Verbesserung der Robustheit zwangsläufig zu einer Verringerung der Genauigkeit führt. Zudem gilt allgemein, dass Netzwerkarchitekturelemente nur dann von Bedeutung sind, wenn die Netzwerke vergrößert werden – ansonsten hätten sie nur geringen Einfluss auf die adversarische Robustheit. Hier präsentieren wir Beweise, die diese verbreiteten Annahmen herausfordern, basierend auf einer sorgfältigen Untersuchung des adversarischen Trainings. Unser zentrales Ergebnis ist, dass die weit verbreitete ReLU-Aktivierungsfunktion das adversarische Training erheblich schwächt, was auf ihre nicht-glatte Natur zurückzuführen ist. Daher schlagen wir ein glattes adversarisches Training (Smooth Adversarial Training, SAT) vor, bei dem ReLU durch ihre glatten Approximationen ersetzt wird, um das adversarische Training zu stärken. Der Zweck glatter Aktivierungsfunktionen in SAT besteht darin, härtere adversarische Beispiele zu finden und während des adversarischen Trainings präzisere Gradientenupdates zu berechnen.Im Vergleich zum herkömmlichen adversarischen Training verbessert SAT die adversarische Robustheit „kostenlos“, d. h. ohne Genauigkeitsverlust und ohne zusätzlichen Rechenaufwand. Beispielsweise steigert SAT die Robustheit von ResNet-50 auf ImageNet ohne zusätzliche Berechnungen von 33,0 % auf 42,3 %, während gleichzeitig die Genauigkeit um 0,9 % verbessert wird. SAT zeigt auch hervorragende Leistung bei größeren Netzwerken: Es ermöglicht es EfficientNet-L1, eine Genauigkeit von 82,2 % und eine Robustheit von 58,6 % auf ImageNet zu erreichen, wodurch die bisher beste Verteidigungsstrategie um 9,5 Prozentpunkte bei der Genauigkeit und um 11,6 Prozentpunkte bei der Robustheit übertrifft. Die Modelle sind unter https://github.com/cihangxie/SmoothAdversarialTraining verfügbar.