HyperAIHyperAI
vor 15 Tagen

Sprachgeleitete adversarische Reinigung

Himanshu Singh, A V Subramanyam
Sprachgeleitete adversarische Reinigung
Abstract

Die adversarische Reinigung mittels generativer Modelle zeigt eine starke Leistung im Bereich der adversarialen Verteidigung. Diese Methoden sind klassifizierer- und angreiferunabhängig, was sie vielseitig macht, sie sind jedoch oft rechenintensiv. In jüngster Zeit haben Fortschritte bei Diffusions- und Score-Netzwerken die Bildgenerierung verbessert und damit indirekt auch die adversarische Reinigung gestärkt. Eine andere sehr effiziente Klasse adversarialer Verteidigungsmethoden, die sogenannte adversarische Trainingsverfahren, erfordert dagegen spezifisches Wissen über Angriffsvektoren und zwingt dazu, umfangreich auf adversarialen Beispielen zu trainieren. Um diese Einschränkungen zu überwinden, stellen wir einen neuen Ansatz vor, die sogenannte „Sprachgesteuerte adversarische Reinigung“ (Language Guided Adversarial Purification, LGAP), der vortrainierte Diffusionsmodelle und Caption-Generatoren nutzt, um gegen adversarische Angriffe zu schützen. Gegeben ein Eingabebild generiert unsere Methode zunächst eine Beschreibung (Caption), die dann über ein Diffusionsnetzwerk den Prozess der adversarischen Reinigung leitet. Unser Ansatz wurde gegen starke adversarische Angriffe evaluiert und zeigt dessen Wirksamkeit bei der Verbesserung der adversarialen Robustheit. Unsere Ergebnisse deuten darauf hin, dass LGAP die meisten bestehenden Methoden der adversarialen Verteidigung übertrifft, ohne dass spezielle Netzwerktrainings erforderlich sind. Dies unterstreicht die Generalisierbarkeit von Modellen, die auf großen Datensätzen trainiert wurden, und zeigt eine vielversprechende Richtung für zukünftige Forschung auf.

Sprachgeleitete adversarische Reinigung | Neueste Forschungsarbeiten | HyperAI