Ensemble alles überall: Multiskalare Aggregation für adversariale Robustheit

Adversarische Beispiele stellen eine erhebliche Herausforderung für die Robustheit, Zuverlässigkeit und Alignment tiefer neuronalen Netze dar. Wir stellen einen neuartigen, einfach zu verwendenden Ansatz vor, der hochwertige Darstellungen ermöglicht, die zu adversarischer Robustheit führen, indem mehrdimensionale Eingabedarstellungen und dynamisches Selbst-Ensembling von Vorhersagen mittlerer Schichten eingesetzt werden. Wir zeigen, dass Vorhersagen aus mittleren Schichten inhärente Robustheit gegenüber adversarischen Angriffen aufweisen, die darauf abzielen, den vollständigen Klassifikator zu täuschen, und schlagen eine robuste Aggregationsmethode basierend auf einem Vickrey-Auktionssystem vor, die wir \textit{CrossMax} nennen. Durch die Kombination mehrdimensionaler Eingaben und robuster Ensembling erreichen wir eine erhebliche adversarische Robustheit auf den Datensätzen CIFAR-10 und CIFAR-100, ohne adversarische Trainingsprozesse oder zusätzliche Daten einzusetzen. Auf dem RobustBench AutoAttack-Test (L_\infty=8/255) erreichen wir eine adversarische Genauigkeit von etwa 72 % (CIFAR-10) und etwa 48 % (CIFAR-100) mit einem nachtrainierten ResNet152, der auf ImageNet vortrainiert wurde. Dies entspricht einem Ergebnis, das mit den drei besten Modellen auf CIFAR-10 vergleichbar ist, und stellt einen Zuwachs von +5 % gegenüber dem derzeit besten spezifischen Ansatz auf CIFAR-100 dar. Durch Hinzufügen eines einfachen adversarischen Trainings steigern wir die Genauigkeit auf etwa 78 % (CIFAR-10) und etwa 51 % (CIFAR-100), was eine Verbesserung gegenüber der State-of-the-Art (SOTA) um jeweils 5 % und 9 % darstellt, wobei die Verbesserungen auf dem anspruchsvolleren Datensatz besonders ausgeprägt sind. Wir validieren unseren Ansatz durch umfangreiche Experimente und liefern Einblicke in die Wechselwirkung zwischen adversarischer Robustheit und der hierarchischen Struktur tiefer Darstellungen. Wir zeigen, dass einfache gradientenbasierte Angriffe gegen unser Modell menscheninterpretierbare Bilder der Zielklassen sowie interpretierbare Bildveränderungen erzeugen. Als Nebenprodukt nutzen wir unsere mehrdimensionale Prior, um vortrainierte Klassifikatoren und CLIP-Modelle in steuerbare Bildgeneratoren zu verwandeln, und entwickeln erfolgreiche übertragbare Angriffe auf große Vision-Language-Modelle.