HyperAIHyperAI
vor 15 Tagen

Cassandra: Erkennung von Trojanisierten Netzen aus adversarialen Störungen

Xiaoyu Zhang, Ajmal Mian, Rohit Gupta, Nazanin Rahnavard, Mubarak Shah
Cassandra: Erkennung von Trojanisierten Netzen aus adversarialen Störungen
Abstract

Tiefere neuronale Netze werden aufgrund ihrer hohen Klassifizierungspräzision zunehmend für viele kritische Aufgaben eingesetzt. In vielen Fällen stammen vortrainierte Modelle von Anbietern, die möglicherweise den Trainingsprozess manipuliert haben, um Trojaner-Verhaltensweisen in die Modelle einzubauen. Diese schädlichen Verhaltensweisen können auf Befehl des Angreifers ausgelöst werden und stellen daher eine ernsthafte Bedrohung für die weit verbreitete Anwendung tiefer Modelle dar. Wir stellen eine Methode vor, um zu überprüfen, ob ein vortrainiertes Modell mit einem Trojaner infiziert ist oder unschädlich ist. Unsere Methode erfasst Fingerabdrücke neuronaler Netze in Form von adversarialen Störungen, die aus den Netzwerkgradienten gelernt werden. Das Einfügen von Backdoors verändert die Entscheidungsgrenzen des Netzwerks, die effektiv in ihren adversarialen Störungen kodiert sind. Wir trainieren ein zweistrahliges Netzwerk zur Trojaner-Erkennung basierend auf den globalen (bezüglich $L_\infty$ und $L_2$ beschränkten) Störungen sowie auf den lokalisierten Bereichen hoher Energie innerhalb jeder Störung. Erstere kodieren die Entscheidungsgrenzen des Netzwerks, letztere die unbekannte Triggerform. Außerdem schlagen wir eine Anomalieerkennungsmethode vor, um die Zielklasse in einem mit einem Trojaner versehenen Netzwerk zu identifizieren. Unsere Methoden sind invariant gegenüber der Art des Triggers, der Triggergröße, den Trainingsdaten und der Netzwerkarchitektur. Wir evaluieren unsere Ansätze an den Datensätzen MNIST, NIST-Round0 und NIST-Round1 anhand bis zu 1.000 vortrainierter Modelle, wodurch dies die bislang umfangreichste Studie zur Erkennung von Trojaner-Netzen darstellt, und erreichen eine Detektionsgenauigkeit von über 92 %, was die neue State-of-the-Art darstellt.

Cassandra: Erkennung von Trojanisierten Netzen aus adversarialen Störungen | Neueste Forschungsarbeiten | HyperAI