HyperAIHyperAI
il y a 3 mois

TransforMatcher : attention match-to-match pour la correspondance sémantique

Seungwook Kim, Juhong Min, Minsu Cho
TransforMatcher : attention match-to-match pour la correspondance sémantique
Résumé

Établir des correspondances entre des images reste une tâche difficile, en particulier en présence de grandes variations d'apparence dues à des points de vue différents ou à des variations intra-classe. Dans ce travail, nous introduisons un modèle d'appariement d'images sémantiquement puissant, nommé TransforMatcher, qui s'appuie sur le succès des réseaux transformer dans les domaines visuels. Contrairement aux approches existantes basées sur la convolution ou l'attention pour les correspondances, TransforMatcher met en œuvre une attention globale « match à match » afin d’obtenir une localisation précise des correspondances et une révision dynamique. Pour gérer un grand nombre de correspondances dans une carte de corrélation dense, nous proposons une architecture d’attention légère permettant de modéliser les interactions globales entre les correspondances. Nous suggérons également d’utiliser une carte de corrélation à plusieurs canaux pour la révision, en traitant les scores de plusieurs niveaux comme des caractéristiques plutôt qu’un seul score, afin d’exploiter pleinement la richesse sémantique à différents niveaux de la hiérarchie. En expérimentation, TransforMatcher établit un nouveau record sur le jeu de données SPair-71k, tout en se montrant compétitif avec les méthodes de pointe existantes sur le jeu de données PF-PASCAL.