Verbesserung von Vision Transformers durch die Neubewertung hochfrequenter Komponenten

Die Transformer-Modelle haben sich bei der Bewältigung verschiedener visueller Aufgaben als vielversprechend erwiesen. Im Vergleich zum Training von Convolutional Neural Network (CNN)-Modellen ist das Training von Vision Transformer (ViT)-Modellen jedoch schwieriger und hängt stärker von großen Trainingsdatensätzen ab. Um diese Beobachtung zu erklären, formulieren wir die Hypothese, dass \textit{ViT-Modelle weniger effektiv sind, um hochfrequente Komponenten von Bildern zu erfassen als CNN-Modelle}, und bestätigen diese durch eine Frequenzanalyse. Inspiriert durch dieses Ergebnis untersuchen wir zunächst die Wirkung bestehender Techniken zur Verbesserung von ViT-Modellen aus einer neuen Frequenzperspektive und stellen fest, dass der Erfolg bestimmter Techniken (z. B. RandAugment) auf einer besseren Nutzung der hochfrequenten Komponenten beruht. Um diese begrenzte Fähigkeit von ViT-Modellen auszugleichen, schlagen wir HAT vor, das hochfrequente Bildkomponenten direkt durch adversariales Training verstärkt. Wir zeigen, dass HAT die Leistung verschiedener ViT-Modelle konsistent steigert (z. B. +1,2 % für ViT-B, +0,5 % für Swin-B) und insbesondere das fortschrittliche Modell VOLO-D5 auf 87,3 % verbessert – und zwar nur unter Verwendung von ImageNet-1K-Daten. Die Überlegenheit bleibt auch auf aus der Verteilung stammenden Daten erhalten und lässt sich auf abgeleitete Aufgaben übertragen. Der Quellcode ist unter: https://github.com/jiawangbai/HAT verfügbar.