Verbesserung robuster Darstellungen im adversarialen Training: Ausrichtungs- und Ausschlusskriterien

Tiefere neuronale Netze sind anfällig für adversariales Rauschen. Adversariales Training (AT) hat sich als die effektivste Verteidigungsstrategie erwiesen, um neuronale Netze davor zu schützen, zu täuschen. Allerdings stellen wir fest, dass AT das Lernen robuster Merkmale vernachlässigt, was zu einer schlechten Leistung im Hinblick auf die adversariale Robustheit führt. Um dieses Problem anzugehen, heben wir zwei Kriterien für robuste Darstellungen hervor: (1) Ausschluss: das Merkmal eines Beispiels bleibt von den Merkmalen anderer Klassen fern; (2) Ausrichtung: das Merkmal eines natürlichen Beispiels und des entsprechenden adversarialen Beispiels liegt nahe beieinander. Diese Erkenntnisse motivieren uns, einen allgemeinen Rahmen für AT vorzuschlagen, um robuste Darstellungen zu erlangen, durch asymmetrischen negativen Kontrast und umgekehrte Aufmerksamkeit. Konkret entwerfen wir einen asymmetrischen negativen Kontrast basierend auf vorhergesagten Wahrscheinlichkeiten, um Beispiele verschiedener Klassen im Merkmalsraum auseinanderzudrängen. Außerdem schlagen wir vor, Merkmale durch Parameter des linearen Klassifikators als umgekehrte Aufmerksamkeit zu gewichten, um klassenbewusste Merkmale zu erhalten und die Merkmale derselben Klasse näher zusammenzuführen. Empirische Evaluierungen auf drei Standard-Datensätzen zeigen, dass unsere Methode die Robustheit von AT erheblich verbessert und eine state-of-the-art-Leistung erreicht.