Defense-GAN: Schutz von Klassifizierern gegen feindliche Angriffe durch generative Modelle

In den letzten Jahren wurden tiefen neuronale Netzansätze weitgehend für maschinelle Lernaufgaben, einschließlich der Klassifizierung, übernommen. Es wurde jedoch gezeigt, dass sie anfällig für feindliche Störungen (adversarial perturbations) sind: sorgfältig gestaltete kleine Veränderungen können zu Fehlklassifikationen von legitimen Bildern führen. Wir schlagen Defense-GAN vor, einen neuen Ansatz, der die Ausdrucksstärke generativer Modelle nutzt, um tiefere neuronale Netze gegen solche Angriffe zu verteidigen. Defense-GAN wird trainiert, die Verteilung ungestörter Bilder zu modellieren. Während der Inferenz findet es eine nahezu identische Ausgabe zu einem gegebenen Bild, das keine feindlichen Veränderungen enthält. Diese Ausgabe wird anschließend dem Klassifizierer zugeführt. Unser vorgeschlagener Ansatz kann mit jedem Klassifizierungsmodell verwendet werden und ändert weder die Struktur noch das Trainingsverfahren des Klassifizierers. Er kann auch als Verteidigung gegen jeden Angriff eingesetzt werden, da er kein Wissen über den Prozess zur Generierung feindlicher Beispiele voraussetzt. Wir zeigen empirisch, dass Defense-GAN konsistent effektiv gegen verschiedene Angriffsmethoden ist und bestehende Verteidigungsstrategien verbessert. Unser Code ist öffentlich zugänglich unter https://github.com/kabkabm/defensegan.