HyperAIHyperAI
vor einem Monat

Verständnis der Robustheit des randomisierten Merkmals-Schutzes gegenüber abfragbasierten adversarialen Angriffen

Quang H. Nguyen, Yingjie Lao, Tung Pham, Kok-Seng Wong, Khoa D. Doan
Verständnis der Robustheit des randomisierten Merkmals-Schutzes gegenüber abfragbasierten adversarialen Angriffen
Abstract

Kürzliche Arbeiten haben gezeigt, dass tiefe neuronale Netzwerke anfällig für adversarielle Beispiele sind, die Bilder nahe an den ursprünglichen Bildern erzeugen, jedoch zu einer Fehlklassifizierung durch das Modell führen können. Selbst bei Beschränkung auf lediglich die Ausgabe des Modells können Angreifer sogenannte Black-Box-Angriffe einsetzen, um solche adversariellen Beispiele zu generieren. In dieser Arbeit stellen wir einen einfachen und leichtgewichtigen Schutz gegen Black-Box-Angriffe vor, indem wir während der Inferenz zufällige Rauschsignale in die versteckten Merkmale an mittleren Schichten des Modells einfügen. Unsere theoretische Analyse bestätigt, dass diese Methode die Robustheit des Modells effektiv gegenüber sowohl score-basierten als auch decision-basierten Black-Box-Angriffen erhöht. Wichtig ist, dass unser Schutzverfahren keine adversarielle Trainingsschritte erfordert und nur geringfügigen Einfluss auf die Genauigkeit hat, wodurch es auf beliebige vortrainierte Modelle anwendbar ist. Zudem zeigt unsere Analyse die Bedeutung einer gezielten Rauschzufügung an unterschiedlichen Teilen des Modells basierend auf der Gradientenstruktur der adversariellen Zielfunktion, die sich während eines Angriffs verändern kann. Wir belegen die Robustheit unseres Schutzverfahrens gegenüber mehreren Black-Box-Angriffen durch umfangreiche empirische Experimente mit einer Vielzahl unterschiedlicher Modelle und Architekturen.

Verständnis der Robustheit des randomisierten Merkmals-Schutzes gegenüber abfragbasierten adversarialen Angriffen | Forschungsarbeiten | HyperAI