Robuste Klassifikation mittels eines einzelnen Diffusionsmodells

Diffusionsmodelle wurden eingesetzt, um die adversarische Robustheit von Bildklassifikatoren durch die Reinigung adversarialer Störungen oder die Generierung realistischer Daten für adversarische Trainingsprozesse zu verbessern. Allerdings können Diffusions-basierte Reinigungsverfahren durch stärkere adaptive Angriffe umgangen werden, während adversarische Trainingsansätze unter unbekannten Bedrohungen nicht gut abschneiden und somit unvermeidliche Grenzen aufweisen. Um das Ausdruckspotenzial von Diffusionsmodellen besser auszunutzen, schlagen wir im vorliegenden Paper den Robust Diffusion Classifier (RDC) vor – einen generativen Klassifikator, der aus einem vortrainierten Diffusionsmodell konstruiert wird und adversarisch robust ist. Der RDC maximiert zunächst die Datennäherungswahrscheinlichkeit eines gegebenen Eingabebildes und schätzt anschließend die Klassenwahrscheinlichkeiten des optimierten Bildes mittels der bedingten Wahrscheinlichkeit, die das Diffusionsmodell mittels des Satzes von Bayes liefert. Um die Rechenkosten weiter zu reduzieren, stellen wir einen neuen Diffusions-Backbone namens Multi-Head Diffusion vor sowie effiziente Sampling-Strategien. Da der RDC kein spezifisches Training gegen bestimmte adversarische Angriffe erfordert, zeigen wir, dass er besser generalisierbar ist und mehrere unbekannte Bedrohungen effektiver abwehren kann. Insbesondere erreicht der RDC eine Robustheitsgenauigkeit von $75,67\%$ gegenüber verschiedenen $\ell_\infty$-normierten adaptiven Angriffen mit $ε_\infty=8/255$ auf CIFAR-10 und übertrifft damit die vorherigen State-of-the-Art-Modelle für adversarische Trainingsverfahren um $+4,77\%$. Die Ergebnisse unterstreichen das Potenzial generativer Klassifikatoren, die auf vortrainierten Diffusionsmodellen basieren, für die adversarische Robustheit im Vergleich zu den häufiger untersuchten diskriminativen Klassifikatoren. Der Quellcode ist unter \url{https://github.com/huanranchen/DiffusionClassifier} verfügbar.