Compréhension du biais de attention gaussienne des Vision Transformers à l’aide des champs réceptifs effectifs

Les transformateurs d’images (Vision Transformers, ViTs), qui modélisent une image comme une séquence de tuiles partitionnées, ont démontré des performances remarquables dans diverses tâches de vision. En raison de la perte de la structure d’image induite par la partition des tuiles, les ViTs emploient un composant explicite appelé « embedding positionnel » pour refléter l’ordre des tuiles. Toutefois, nous affirmons que l’utilisation de cet embedding positionnel ne garantit pas automatiquement une conscience de l’ordre au sein du ViT. Pour étayer cette affirmation, nous analysons le comportement réel des ViTs à l’aide d’un champ réceptif effectif. Nous montrons que, durant l’entraînement, le ViT acquiert une compréhension de l’ordre des tuiles à partir de l’embedding positionnel, qui est lui-même entraîné pour adopter un motif spécifique. À partir de cette observation, nous proposons d’ajouter explicitement un biais d’attention gaussienne, qui guide l’embedding positionnel à adopter le motif correspondant dès le début de l’entraînement. Nous avons évalué l’impact de ce biais d’attention gaussienne sur les performances des ViTs dans plusieurs expériences de classification d’images, de détection d’objets et de segmentation sémantique. Les résultats montrent que la méthode proposée non seulement facilite la compréhension des images par les ViTs, mais améliore également significativement leurs performances sur divers jeux de données, notamment ImageNet, COCO 2017 et ADE20K.