HyperAIHyperAI
il y a 11 jours

Transformers de vision auto-supervisés efficaces pour l'apprentissage de représentations

Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao
Transformers de vision auto-supervisés efficaces pour l'apprentissage de représentations
Résumé

Cet article étudie deux techniques visant à développer des transformateurs d’image auto-supervisés efficaces (EsViT) pour l’apprentissage de représentations visuelles. Premièrement, nous démontrons, à travers une étude empirique approfondie, que les architectures multi-étapes basées sur des attentions auto-éparses permettent de réduire significativement la complexité du modèle, mais au prix de la perte de la capacité à capturer des correspondances fines entre les régions d’une image. Deuxièmement, nous proposons une nouvelle tâche de pré-entraînement basée sur le matching de régions, qui permet au modèle d’apprendre des dépendances fines entre régions, améliorant ainsi de manière significative la qualité des représentations visuelles apprises. Nos résultats montrent que la combinaison de ces deux techniques permet à EsViT d’atteindre un taux de précision top-1 de 81,3 % sur l’évaluation linéaire ImageNet, surpassant les méthodes antérieures avec un débit d’environ un ordre de grandeur supérieur. Lors de la transfert vers des tâches de classification linéaire en aval, EsViT surpasse son équivalent supervisé sur 17 des 18 jeux de données testés. Le code et les modèles sont disponibles publiquement : https://github.com/microsoft/esvit

Transformers de vision auto-supervisés efficaces pour l'apprentissage de représentations | Articles de recherche récents | HyperAI