HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung von Vision Transformers durch die Neubewertung hochfrequenter Komponenten

Jiawang Bai Li Yuan Shu-Tao Xia Shuicheng Yan Zhifeng Li Wei Liu

Zusammenfassung

Die Transformer-Modelle haben sich bei der Bewältigung verschiedener visueller Aufgaben als vielversprechend erwiesen. Im Vergleich zum Training von Convolutional Neural Network (CNN)-Modellen ist das Training von Vision Transformer (ViT)-Modellen jedoch schwieriger und hängt stärker von großen Trainingsdatensätzen ab. Um diese Beobachtung zu erklären, formulieren wir die Hypothese, dass \textit{ViT-Modelle weniger effektiv sind, um hochfrequente Komponenten von Bildern zu erfassen als CNN-Modelle}, und bestätigen diese durch eine Frequenzanalyse. Inspiriert durch dieses Ergebnis untersuchen wir zunächst die Wirkung bestehender Techniken zur Verbesserung von ViT-Modellen aus einer neuen Frequenzperspektive und stellen fest, dass der Erfolg bestimmter Techniken (z. B. RandAugment) auf einer besseren Nutzung der hochfrequenten Komponenten beruht. Um diese begrenzte Fähigkeit von ViT-Modellen auszugleichen, schlagen wir HAT vor, das hochfrequente Bildkomponenten direkt durch adversariales Training verstärkt. Wir zeigen, dass HAT die Leistung verschiedener ViT-Modelle konsistent steigert (z. B. +1,2 % für ViT-B, +0,5 % für Swin-B) und insbesondere das fortschrittliche Modell VOLO-D5 auf 87,3 % verbessert – und zwar nur unter Verwendung von ImageNet-1K-Daten. Die Überlegenheit bleibt auch auf aus der Verteilung stammenden Daten erhalten und lässt sich auf abgeleitete Aufgaben übertragen. Der Quellcode ist unter: https://github.com/jiawangbai/HAT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Verbesserung von Vision Transformers durch die Neubewertung hochfrequenter Komponenten | Paper | HyperAI