HyperAIHyperAI
vor 17 Tagen

Pyramid Adversarial Training verbessert die Leistung von ViT

Charles Herrmann, Kyle Sargent, Lu Jiang, Ramin Zabih, Huiwen Chang, Ce Liu, Dilip Krishnan, Deqing Sun
Pyramid Adversarial Training verbessert die Leistung von ViT
Abstract

Aggressive Data-Augmentation ist eine zentrale Komponente der starken Generalisierungsfähigkeit von Vision Transformers (ViT). Eine solche Datenaugmentierungstechnik ist die adversarische Training (AT); dennoch haben zahlreiche vorherige Arbeiten gezeigt, dass dies oft zu einer schlechten Rein-Genauigkeit führt. In dieser Arbeit präsentieren wir Pyramid Adversarial Training (PyramidAT), eine einfache und effektive Methode zur Verbesserung der Gesamtleistung von ViT. Wir kombinieren sie mit einer „angepassten“ Dropout- und Stochastic-Depth-Regularisierung, die sowohl für saubere als auch für adversarische Beispiele dieselbe Dropout- und Stochastic-Depth-Konfiguration verwendet. Ähnlich wie die Verbesserungen bei CNNs durch AdvProp (die nicht direkt auf ViT anwendbar ist), überwindet unser Pyramid Adversarial Training die Kompromisslage zwischen In-Distribution-Genauigkeit und Out-of-Distribution-Robustheit für ViT und verwandte Architekturen. Es erzielt eine absolute Verbesserung der ImageNet-Rein-Genauigkeit um 1,82 % für das ViT-B-Modell, wenn es ausschließlich auf ImageNet-1K-Daten trainiert wird, und steigert gleichzeitig die Leistung auf 7 ImageNet-Robustheitsmetriken um absolute Werte zwischen 1,76 % und 15,68 %. Wir erreichen damit eine neue State-of-the-Art für ImageNet-C (41,42 mCE), ImageNet-R (53,92 %) und ImageNet-Sketch (41,04 %), ohne zusätzliche Daten zu verwenden, und nutzen lediglich den ViT-B/16-Backbone sowie unser Pyramid Adversarial Training. Unser Code ist öffentlich unter pyramidat.github.io verfügbar.

Pyramid Adversarial Training verbessert die Leistung von ViT | Neueste Forschungsarbeiten | HyperAI