Pyramid Adversarial Training verbessert die Leistung von ViT

Aggressive Data-Augmentation ist eine zentrale Komponente der starken Generalisierungsfähigkeit von Vision Transformers (ViT). Eine solche Datenaugmentierungstechnik ist die adversarische Training (AT); dennoch haben zahlreiche vorherige Arbeiten gezeigt, dass dies oft zu einer schlechten Rein-Genauigkeit führt. In dieser Arbeit präsentieren wir Pyramid Adversarial Training (PyramidAT), eine einfache und effektive Methode zur Verbesserung der Gesamtleistung von ViT. Wir kombinieren sie mit einer „angepassten“ Dropout- und Stochastic-Depth-Regularisierung, die sowohl für saubere als auch für adversarische Beispiele dieselbe Dropout- und Stochastic-Depth-Konfiguration verwendet. Ähnlich wie die Verbesserungen bei CNNs durch AdvProp (die nicht direkt auf ViT anwendbar ist), überwindet unser Pyramid Adversarial Training die Kompromisslage zwischen In-Distribution-Genauigkeit und Out-of-Distribution-Robustheit für ViT und verwandte Architekturen. Es erzielt eine absolute Verbesserung der ImageNet-Rein-Genauigkeit um 1,82 % für das ViT-B-Modell, wenn es ausschließlich auf ImageNet-1K-Daten trainiert wird, und steigert gleichzeitig die Leistung auf 7 ImageNet-Robustheitsmetriken um absolute Werte zwischen 1,76 % und 15,68 %. Wir erreichen damit eine neue State-of-the-Art für ImageNet-C (41,42 mCE), ImageNet-R (53,92 %) und ImageNet-Sketch (41,04 %), ohne zusätzliche Daten zu verwenden, und nutzen lediglich den ViT-B/16-Backbone sowie unser Pyramid Adversarial Training. Unser Code ist öffentlich unter pyramidat.github.io verfügbar.