il y a 17 jours

HRFormer : Transformateur à Haute Résolution pour la Prédiction Densifiée

Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, Jingdong Wang

Résumé

Nous présentons un modèle High-Resolution Transformer (HRFormer), conçu pour apprendre des représentations à haute résolution destinées aux tâches de prédiction dense, contrairement au Vision Transformer original qui génère des représentations à basse résolution et présente un coût mémoire et computationnel élevé. Nous exploitons l’architecture parallèle à multi-résolution introduite dans les réseaux convolutionnels à haute résolution (HRNet), combinée à une attention auto-associative locale agissant sur de petites fenêtres d’image non chevauchantes, afin d’améliorer l’efficacité mémoire et computationnelle. En outre, nous intégrons une opération de convolution dans le bloc Feed-Forward Network (FFN) afin d’échanger des informations entre les fenêtres d’image disjointes. Nous démontrons l’efficacité du High-Resolution Transformer sur des tâches telles que l’estimation de posture humaine et la segmentation sémantique. Par exemple, HRFormer dépasse Swin Transformer de 1,3 point d’AP sur la tâche d’estimation de posture COCO, tout en utilisant 50 % de paramètres et 30 % de FLOPs en moins. Le code est disponible à l’adresse suivante : https://github.com/HRNet/HRFormer.