Ein orthogonaler Klassifikator zur Verbesserung der adversarialen Robustheit von neuronalen Netzen

Neuronale Netze sind anfällig für künstlich konstruierte adversarische Störungen. Neuere Ansätze haben gezeigt, dass durch bestimmte Modifikationen am Klassifikationslayer die Robustheit neuronaler Netze verbessert werden kann. In diesem Paper konstruieren wir explizit eine dichte orthogonale Gewichtsmatrix mit gleichem Betrag aller Einträge, was zu einem neuen robusten Klassifikator führt. Der vorgeschlagene Klassifikator vermeidet das unerwünschte strukturelle Redundanzproblem aus früheren Arbeiten. Die Anwendung dieses Klassifikators bei standardmäßiger Trainingsprozedur auf sauberen Daten ist bereits ausreichend, um hohe Genauigkeit und gute Robustheit des Modells zu gewährleisten. Darüber hinaus kann bei Verwendung zusätzlicher adversarischer Beispiele durch die Verwendung einer speziellen Worst-Case-Loss-Funktion eine noch höhere Robustheit erreicht werden. Experimentelle Ergebnisse zeigen, dass unsere Methode effizient und wettbewerbsfähig gegenüber vielen state-of-the-art-Verteidigungsansätzen ist. Der Quellcode ist unter \url{https://github.com/MTandHJ/roboc} verfügbar.