Zu tiefen Lernmodellen, die widerstandsfähig gegen feindliche Angriffe sind

Neuere Arbeiten haben gezeigt, dass tiefe neuronale Netze anfällig für feindliche Beispiele sind – Eingaben, die sich kaum von natürlichen Daten unterscheiden und dennoch vom Netzwerk falsch klassifiziert werden. Tatsächlich deuten einige der neuesten Erkenntnisse darauf hin, dass die Existenz feindlicher Angriffe eine inhärente Schwäche tiefen Lernmodells sein könnte. Um dieses Problem anzugehen, untersuchen wir die feindliche Robustheit von neuronalen Netzen unter dem Aspekt der robusten Optimierung. Dieser Ansatz bietet uns eine umfassende und einheitliche Sicht auf einen Großteil der bisherigen Arbeiten zu diesem Thema. Sein prinzipielles Naturell ermöglicht es uns auch, Methoden zur Ausbildung und zum Angriff auf neuronale Netze zu identifizieren, die verlässlich und in einem bestimmten Sinne universell sind. Insbesondere legen sie eine konkrete Sicherheitsgarantie fest, die gegen jeden Angreifer schützen würde. Diese Methoden ermöglichen es uns, Netzwerke mit erheblich verbessertem Widerstand gegen eine breite Palette von feindlichen Angriffen auszubilden. Sie legen auch den Begriff der Sicherheit gegen einen ersten Ordnungsangreifer (first-order adversary) als eine natürliche und weitreichende Sicherheitsgarantie nahe. Wir glauben, dass die Robustheit gegenüber solchen gut definierten Klassen von Angreifern ein wichtiger Schritt auf dem Weg zu vollständig resistenten tiefen Lernmodellen ist. Der Quellcode und vorab trainierte Modelle sind unter https://github.com/MadryLab/mnist_challenge und https://github.com/MadryLab/cifar10_challenge verfügbar.