ViTAEv2 : Vision Transformer amélioré par l'exploration de biais inductifs pour la reconnaissance d'images et au-delà

Les transformateurs de vision ont démontré un grand potentiel dans diverses tâches de vision par ordinateur grâce à leur capacité forte à modéliser les dépendances à longue portée grâce au mécanisme d’attention auto-associative. Toutefois, ils traitent une image comme une séquence 1D de jetons visuels, manquant ainsi d’un biais inductif (IB) intrinsèque pour modéliser les structures visuelles locales et gérer la variance d’échelle, biais qui est au contraire appris de manière implicite à partir de données à grande échelle et de longues durées d’entraînement. Dans ce travail, nous proposons un transformateur de vision amélioré par l’exploration d’un biais inductif intrinsèque issu des convolutions, appelé ViTAE. Techniquement, ViTAE intègre plusieurs modules de réduction pyramide spatiale pour réduire l’échelle et encoder l’image d’entrée en jetons riches en contexte multi-échelle, en utilisant plusieurs convolutions à différents taux de dilatation. Ainsi, il acquiert un biais inductif intrinsèque d’invariance à l’échelle et peut apprendre des représentations de caractéristiques robustes pour des objets à différentes échelles. En outre, dans chaque couche de transformateur, ViTAE intègre un bloc de convolution parallèle au module d’attention multi-têtes, dont les caractéristiques sont fusionnées avant d’être transmises au réseau feed-forward. Par conséquent, il possède un biais inductif intrinsèque de localité et est capable d’apprendre simultanément les caractéristiques locales et les dépendances globales. Les deux types de cellules proposés sont empilés de manière isotrope ou multi-étapes afin de former deux familles de modèles ViTAE, à savoir ViTAE classique et ViTAEv2. Des expériences menées sur le jeu de données ImageNet ainsi que sur des tâches à valeur ajoutée sur MS COCO, ADE20K et AP10K confirment l’avantage de nos modèles par rapport aux modèles de transformateurs de base et aux travaux concurrents. En outre, en échelonnant notre modèle ViTAE à 644 millions de paramètres, nous obtenons une performance de classification de pointe : une précision Top-1 de 88,5 % sur l’ensemble de validation ImageNet, et la meilleure précision Top-1 de 91,2 % sur l’ensemble de validation ImageNet réel, sans recourir à des données privées supplémentaires.