HyperAIHyperAI
il y a 17 jours

Intégration de conceptions de convolution dans les Transformers visuels

Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, Wei Wu
Intégration de conceptions de convolution dans les Transformers visuels
Résumé

Motivés par le succès des Transformers dans les tâches de traitement du langage naturel (NLP), plusieurs tentatives ont vu le jour (par exemple ViT et DeiT) visant à appliquer les Transformers au domaine de la vision par ordinateur. Toutefois, les architectures Transformer pures nécessitent souvent une grande quantité de données d’entraînement ou une supervision supplémentaire pour atteindre une performance comparable à celle des réseaux de neurones convolutifs (CNN). Pour surmonter ces limitations, nous analysons les inconvénients potentiels liés à l’adaptation directe des architectures Transformer issues du NLP. À cette fin, nous proposons un nouveau modèle, le \textbf{Transformer d’image à renforcement convolutif (CeiT)}, qui combine les avantages des CNN dans l’extraction des caractéristiques de bas niveau et le renforcement de la localité, avec ceux des Transformers dans la modélisation des dépendances à longue portée. Trois modifications sont apportées à l’architecture originale du Transformer : \textbf{1)} au lieu d’une tokenisation directe à partir des images brutes, nous introduisons un module \textbf{Image-to-Tokens (I2T)} qui extrait des patches à partir de caractéristiques de bas niveau générées ; \textbf{2)} le réseau feed-forward de chaque bloc encodeur est remplacé par une couche \textbf{Feed-Forward renforcée localement (LeFF)}, qui améliore la corrélation entre les tokens voisins dans la dimension spatiale ; \textbf{3)} une attention \textbf{Classe par couche (LCA)} est ajoutée en haut du Transformer afin d’exploiter les représentations multi-niveaux. Les résultats expérimentaux sur ImageNet et sept tâches descendantes démontrent l’efficacité et la capacité de généralisation du CeiT par rapport aux Transformers antérieurs ainsi qu’aux CNN de pointe, sans nécessiter une grande quantité de données d’entraînement ni d’enseignants CNN supplémentaires. En outre, les modèles CeiT montrent une convergence améliorée, nécessitant jusqu’à trois fois moins d’itérations d’entraînement, ce qui permet de réduire significativement les coûts d’entraînement\footnote{Le code et les modèles seront publiés à l’acceptation.}.

Intégration de conceptions de convolution dans les Transformers visuels | Articles de recherche récents | HyperAI