HyperAIHyperAI
vor 4 Monaten

Universelle adversäre Störungen mit generativen Modellen lernen

Jamie Hayes; George Danezis
Universelle adversäre Störungen mit generativen Modellen lernen
Abstract

Neuronale Netze sind bekannt für ihre Anfälligkeit gegenüber feindlichen Beispielen (adversarial examples), Eingaben, die absichtlich so verändert wurden, dass sie optisch dem ursprünglichen Eingang sehr ähnlich bleiben, jedoch eine Fehlklassifizierung verursachen. Kürzlich wurde gezeigt, dass bei einem bestimmten Datensatz und einem Klassifikator sogenannte universelle feindliche Störungen (universal adversarial perturbations) existieren, eine einzelne Störung, die bei jeder Eingabe zu einer Fehlklassifizierung führt. In dieser Arbeit stellen wir universelle feindliche Netze (universal adversarial networks) vor, ein generatives Netzwerk, das in der Lage ist, ein Zielklassifikator zu täuschen, wenn sein generiertes Ausgabe auf ein unverfälschtes Beispiel aus einem Datensatz hinzugefügt wird. Wir zeigen, dass diese Technik bekannten universellen feindlichen Angriffen überlegen ist.