HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration des Vision Transformers par une nouvelle exploration des composantes à haute fréquence

Jiawang Bai Li Yuan Shu-Tao Xia Shuicheng Yan Zhifeng Li Wei Liu

Résumé

Les modèles de type Transformer ont démontré une efficacité prometteuse dans le traitement de diverses tâches visuelles. Toutefois, en comparaison avec l’entraînement des modèles de réseaux de neurones convolutifs (CNN), l’entraînement des modèles Vision Transformer (ViT) s’avère plus difficile et dépend fortement de jeux de données d’entraînement à grande échelle. Pour expliquer cette observation, nous formulons l’hypothèse selon laquelle les modèles ViT sont moins efficaces que les modèles CNN pour capturer les composantes à haute fréquence des images, et nous la validons à l’aide d’une analyse fréquentielle. Inspirés par ce résultat, nous examinons d’abord les effets des techniques existantes visant à améliorer les modèles ViT sous un nouvel angle fréquentiel, et constatons que le succès de certaines d’entre elles (par exemple RandAugment) peut être attribué à une meilleure exploitation des composantes à haute fréquence. Afin de compenser cette faiblesse inhérente des modèles ViT, nous proposons HAT, une méthode qui enrichit directement les composantes à haute fréquence des images via une entraînement adversarial. Nous démontrons que HAT améliore de manière cohérente les performances de divers modèles ViT (par exemple +1,2 % pour ViT-B, +0,5 % pour Swin-B), et améliore particulièrement le modèle avancé VOLO-D5 jusqu’à 87,3 %, en utilisant uniquement les données ImageNet-1K, tout en maintenant une supériorité significative sur des données hors distribution et en transférant efficacement ces gains vers des tâches en aval. Le code est disponible à l’adresse suivante : https://github.com/jiawangbai/HAT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration des Vision Transformers par une nouvelle exploration des composantes à haute fréquence | Articles | HyperAI