VOLO : Vision Outlooker pour la reconnaissance visuelle

La reconnaissance visuelle a été dominée pendant de nombreuses années par les réseaux de neurones convolutifs (CNN). Bien que les transformateurs d’image (ViTs), récemment apparus, aient démontré un grand potentiel des modèles basés sur l’attention auto-associative pour la classification sur ImageNet, leurs performances restent inférieures à celles des CNN les plus récents en l’absence de données supplémentaires. Dans ce travail, nous cherchons à combler cet écart de performance et à montrer qu’il est effectivement possible aux modèles basés sur l’attention de surpasser les CNN. Nous identifions un facteur majeur limitant les performances des ViTs sur la classification ImageNet : leur faible efficacité à encoder les caractéristiques de niveau fin dans les représentations des tokens. Pour résoudre ce problème, nous introduisons une nouvelle mécanique d’attention, appelée outlook attention, et proposons une architecture simple et générale, nommée Vision Outlooker (VOLO). Contrairement à l’attention auto-associative, qui se concentre sur la modélisation des dépendances globales à un niveau grossier, l’outlook attention encode efficacement les caractéristiques et contextes de niveau plus fin dans les tokens, ce qui s’avère crucialement bénéfique pour la performance de reconnaissance, mais largement ignoré par l’attention auto-associative. Nos expériences montrent que notre modèle VOLO atteint une précision top-1 de 87,1 % sur la classification ImageNet-1K, devenant ainsi le premier modèle à dépasser 87 % de précision sur ce benchmark exigeant, sans recourir à des données d’entraînement supplémentaires. En outre, le modèle VOLO pré-entraîné se transfère efficacement à des tâches en aval, telles que la segmentation sémantique : nous obtenons un score mIoU de 84,3 % sur l’ensemble de validation Cityscapes et de 54,3 % sur l’ensemble de validation ADE20K. Le code est disponible à l’adresse suivante : \url{https://github.com/sail-sg/volo}.