HyperAIHyperAI
il y a 2 mois

TransMatcher : Appariement d'images en profondeur par le biais de transformateurs pour une ré-identification de personnes généralisable

Liao, Shengcai ; Shao, Ling
TransMatcher : Appariement d'images en profondeur par le biais de transformateurs pour une ré-identification de personnes généralisable
Résumé

Les Transformers ont récemment attiré une attention croissante dans le domaine de la vision par ordinateur. Cependant, les études existantes utilisent majoritairement les Transformers pour l'apprentissage de représentations de caractéristiques, par exemple pour la classification d'images et les prédictions denses, et la généralisabilité des Transformers reste inconnue. Dans ce travail, nous explorons davantage la possibilité d'appliquer les Transformers à l'appariement d'images et à l'apprentissage métrique en utilisant des paires d'images. Nous constatons que le Vision Transformer (ViT) et le Transformer classique avec décodeurs ne sont pas adaptés à l'appariement d'images en raison de leur absence d'attention image-à-image. Par conséquent, nous proposons deux solutions naïves : la concaténation requête-galerie dans le ViT et l'attention croisée requête-galerie dans le Transformer classique. La seconde améliore les performances, mais elle reste limitée. Ceci suggère que le mécanisme d'attention dans les Transformers est principalement conçu pour l'agrégation de caractéristiques globales, ce qui n'est pas naturellement adapté à l'appariement d'images.En conséquence, nous proposons un nouveau décodeur simplifié qui abandonne la mise en œuvre complète de l'attention avec le pondérage softmax, conservant uniquement le calcul de similarité entre requête et clé. De plus, un regroupement maximal global et une tête multicouche perceptron (MLP) sont appliqués pour décoder le résultat d'appariement. Ainsi, ce décodeur simplifié est non seulement plus efficace sur le plan computationnel, mais aussi plus performant pour l'appariement d'images. La méthode proposée, appelée TransMatcher, atteint des performances de pointe en identification réidentifiante généralisable de personnes, avec des gains de performance allant jusqu'à 6,1 % en Rank-1 et 5,7 % en mAP sur plusieurs jeux de données populaires.Le code est disponible sur https://github.com/ShengcaiLiao/QAConv.

TransMatcher : Appariement d'images en profondeur par le biais de transformateurs pour une ré-identification de personnes généralisable | Articles de recherche récents | HyperAI