il y a 17 jours

ConViT : Amélioration des Vision Transformers grâce à des biais inductifs convolutionnels doux

Stéphane d&#39, Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio Biroli, Levent Sagun

Résumé

Les architectures convolutives se sont révélées extrêmement efficaces pour les tâches de vision. Leurs biais inductifs rigides permettent un apprentissage efficace en nombre d’échantillons, mais au prix d’un plafond de performance potentiellement plus bas. Les Transformers pour la vision (ViTs) s’appuient sur des couches d’attention auto-attention plus flexibles, et ont récemment surpassé les réseaux de neurones convolutifs (CNN) pour la classification d’images. Toutefois, ils nécessitent un pré-entraînement coûteux sur de grands jeux de données externes ou une distillation à partir de réseaux convolutifs pré-entraînés. Dans ce papier, nous nous posons la question suivante : est-il possible de combiner les forces de ces deux architectures tout en évitant leurs limites respectives ? À cette fin, nous introduisons une nouvelle forme d’attention auto-attention positionnelle, appelée attention auto-attention positionnelle à porte (GPSA), qui peut être munie d’un biais inductif convolutif « doux ». Nous initialisons les couches GPSA de manière à imiter la localité des couches convolutives, puis nous permettons à chaque tête d’attention de s’échapper de cette contrainte locale en ajustant un paramètre de porte régulant l’attention accordée à l’information spatiale par rapport à l’information de contenu. L’architecture de Transformer convolutif résultante, ConViT, surpasse DeiT sur ImageNet tout en offrant une efficacité en échantillons nettement améliorée. Nous étudions également plus en profondeur le rôle de la localité dans l’apprentissage en quantifiant d’abord la manière dont elle est encouragée dans les couches d’attention auto-attention classiques, puis en analysant comment elle est dépassée dans les couches GPSA. Enfin, nous présentons diverses ablations afin de mieux comprendre les raisons du succès de ConViT. Notre code et nos modèles sont publiés librement sur GitHub à l’adresse suivante : https://github.com/facebookresearch/convit.