Adversariale Verteidigung durch Einschränkung des versteckten Raums von tiefen Neuronalen Netzen

Tiefe neuronale Netze sind anfällig für feindliche Angriffe (adversarial attacks), die sie durch Hinzufügen minimaler Störungen zu den Eingabebildern täuschen können. Die Robustheit bestehender Verteidigungsmechanismen leidet stark unter White-Box-Angriffsszenarien, bei denen ein Angreifer vollständige Kenntnisse über das Netzwerk hat und mehrere Iterationen durchlaufen kann, um starke Störungen zu finden. Wir beobachten, dass der Hauptgrund für die Existenz solcher Störungen die enge Nähe verschiedener Klassenbeispiele im gelernten Merkmalsraum ist. Dies ermöglicht es, durch Hinzufügen einer unmerklichen Störung zu den Eingaben die Modellentscheidungen vollständig zu ändern. Um dies entgegenzuwirken, schlagen wir vor, die Zwischenrepräsentationen der Merkmale von tiefen Netzen klassenspezifisch zu entkoppeln (class-wise disentangle). Insbesondere zwingen wir die Merkmale jeder Klasse, innerhalb eines konvexen Polytops zu liegen, das maximal von den Polytops anderer Klassen getrennt ist. Auf diese Weise wird das Netzwerk gezwungen, für jede Klasse deutlich voneinander getrennte und entfernte Entscheidungsregionen zu lernen. Wir stellen fest, dass diese einfache Nebenbedingung an die Merkmale die Robustheit der gelernten Modelle erheblich steigert, selbst gegen die stärksten White-Box-Angriffe, ohne die Klassifikationsleistung auf sauberen Bildern zu beeinträchtigen. Wir berichten umfangreiche Evaluierungen sowohl in Black-Box- als auch in White-Box-Angriffsszenarien und zeigen signifikante Verbesserungen im Vergleich zu den bisher besten Verteidigungsstrategien (state-of-the-art defenses).