HyperAIHyperAI
il y a 17 jours

Réexamen et amélioration de l'encodage de position relative pour Vision Transformer

Kan Wu, Houwen Peng, Minghao Chen, Jianlong Fu, Hongyang Chao
Réexamen et amélioration de l'encodage de position relative pour Vision Transformer
Résumé

L’encodage de position relative (RPE) est essentiel pour les transformateurs afin de capturer l’ordre séquentiel des tokens d’entrée. Son efficacité générale a été démontrée dans le traitement du langage naturel. Toutefois, dans le domaine de la vision par ordinateur, son efficacité n’a pas encore été suffisamment étudiée et demeure même controversée, par exemple en ce qui concerne la question de savoir si l’encodage de position relative peut fonctionner aussi bien que l’encodage de position absolue. Afin de clarifier cette question, nous passons d’abord en revue les méthodes existantes d’encodage de position relative, puis analysons leurs avantages et inconvénients lorsqu’elles sont appliquées aux transformateurs pour la vision. Nous proposons ensuite de nouvelles méthodes d’encodage de position relative spécifiquement conçues pour les images 2D, appelées iRPE (image RPE). Nos approches intègrent une modélisation de la distance relative directionnelle, ainsi que les interactions entre les requêtes et les embeddings de position relative dans le mécanisme d’attention auto-attention. Les méthodes iRPE proposées sont simples et légères, et peuvent être facilement intégrées dans des blocs de transformateur. Les expérimentations montrent que, uniquement grâce à ces nouvelles méthodes d’encodage, DeiT et DETR obtiennent respectivement des améliorations stables allant jusqu’à 1,5 % (exactitude au top-1) et 1,3 % (mAP) par rapport à leurs versions initiales sur ImageNet et COCO, sans ajuster aucun hyperparamètre supplémentaire tels que le taux d’apprentissage ou la décroissance de poids. Nos analyses ablatives et études complémentaires ont également révélé des observations intéressantes, certaines allant à l’encontre des compréhensions antérieures. Le code et les modèles sont mis à disposition sous licence open-source à l’adresse suivante : https://github.com/microsoft/Cream/tree/main/iRPE.