vor 2 Monaten

Erklärung und Nutzung von feindlichen Beispielen

Ian J. Goodfellow; Jonathon Shlens; Christian Szegedy

Abstract

Mehrere maschinelles Lernmodelle, darunter neuronale Netze, klassifizieren feindliche Beispiele (adversarial examples) stets falsch – Eingaben, die durch Anwendung kleiner, aber absichtlich schlimmsterfalls gestörter Veränderungen an Beispielen aus dem Datensatz gebildet werden, sodass die gestörte Eingabe das Modell dazu veranlasst, mit hoher Zuversicht eine falsche Antwort zu liefern. Frühe Versuche, dieses Phänomen zu erklären, konzentrierten sich auf Nichtlinearität und Überanpassung (Overfitting). Wir argumentieren jedoch, dass die Hauptursache für die Anfälligkeit von neuronalen Netzen gegenüber feindlichen Störungen (adversarial perturbations) ihre lineare Natur ist. Diese Erklärung wird durch neue quantitative Ergebnisse gestützt und liefert gleichzeitig die erste Erklärung des faszinierendsten Fakts über sie: ihrer Generalisierungsfähigkeit über verschiedene Architekturen und Trainingsdatensätze hinweg. Darüber hinaus führt dieser Ansatz zu einer einfachen und schnellen Methode zur Generierung von feindlichen Beispielen. Durch die Bereitstellung solcher Beispiele für feindliches Training (adversarial training) können wir den Testfehler eines Maxout-Netzes auf dem MNIST-Datensatz reduzieren.