HyperAIHyperAI
il y a 7 jours

CATs : Transformateurs d’agrégation de coût pour la correspondance visuelle

Seokju Cho, Sunghwan Hong, Sangryul Jeon, Yunsung Lee, Kwanghoon Sohn, Seungryong Kim
CATs : Transformateurs d’agrégation de coût pour la correspondance visuelle
Résumé

Nous proposons un nouveau réseau d’agrégation de coûts, appelé Transformateurs d’Agrégation de Coûts (CATs), afin de trouver des correspondances denses entre des images sémantiquement similaires, dans des conditions rendues plus complexes par de fortes variations intra-classe d’apparence et de géométrie. L’agrégation de coûts constitue un processus essentiel dans les tâches de correspondance, dont la précision dépend directement de la qualité de sa sortie. Contrairement aux méthodes traditionnelles ou basées sur les réseaux de neurones convolutifs (CNN), qui souffrent soit d’une faible robustesse aux déformations sévères, soit de limitations inhérentes aux CNN — notamment leur incapacité à distinguer les correspondances incorrectes en raison de champs réceptifs limités —, les CATs explorent le consensus global au sein de la carte initiale de corrélation grâce à des conceptions architecturales permettant une exploitation optimale du mécanisme d’attention auto-attention. Plus précisément, nous intégrons un modèle d’affinité d’apparence afin d’aider le processus d’agrégation de coûts, en vue de débruiter les cartes initiales de corrélation bruitées, et proposons une agrégation multi-niveaux pour capturer efficacement différentes sémantiques à partir de représentations hiérarchiques des caractéristiques. Nous combinons ensuite cette approche avec une technique d’attention auto-attention par permutation (swapping self-attention) et des connexions résiduelles, non seulement pour renforcer la cohérence des correspondances, mais aussi pour faciliter l’apprentissage, ce que nous constatons entraîner une amélioration significative des performances. Nous menons des expériences pour démontrer l’efficacité du modèle proposé par rapport aux méthodes les plus récentes, et fournissons des études ablatives approfondies. La page du projet est disponible à l’adresse suivante : https://sunghwanhong.github.io/CATs/.

CATs : Transformateurs d’agrégation de coût pour la correspondance visuelle | Articles de recherche récents | HyperAI