HyperAIHyperAI

Command Palette

Search for a command to run...

TransMatcher : Appariement d'images en profondeur par le biais de transformateurs pour une ré-identification de personnes généralisable

Shengcai Liao Ling Shao

Résumé

Les Transformers ont récemment attiré une attention croissante dans le domaine de la vision par ordinateur. Cependant, les études existantes utilisent majoritairement les Transformers pour l'apprentissage de représentations de caractéristiques, par exemple pour la classification d'images et les prédictions denses, et la généralisabilité des Transformers reste inconnue. Dans ce travail, nous explorons davantage la possibilité d'appliquer les Transformers à l'appariement d'images et à l'apprentissage métrique en utilisant des paires d'images. Nous constatons que le Vision Transformer (ViT) et le Transformer classique avec décodeurs ne sont pas adaptés à l'appariement d'images en raison de leur absence d'attention image-à-image. Par conséquent, nous proposons deux solutions naïves : la concaténation requête-galerie dans le ViT et l'attention croisée requête-galerie dans le Transformer classique. La seconde améliore les performances, mais elle reste limitée. Ceci suggère que le mécanisme d'attention dans les Transformers est principalement conçu pour l'agrégation de caractéristiques globales, ce qui n'est pas naturellement adapté à l'appariement d'images.En conséquence, nous proposons un nouveau décodeur simplifié qui abandonne la mise en œuvre complète de l'attention avec le pondérage softmax, conservant uniquement le calcul de similarité entre requête et clé. De plus, un regroupement maximal global et une tête multicouche perceptron (MLP) sont appliqués pour décoder le résultat d'appariement. Ainsi, ce décodeur simplifié est non seulement plus efficace sur le plan computationnel, mais aussi plus performant pour l'appariement d'images. La méthode proposée, appelée TransMatcher, atteint des performances de pointe en identification réidentifiante généralisable de personnes, avec des gains de performance allant jusqu'à 6,1 % en Rank-1 et 5,7 % en mAP sur plusieurs jeux de données populaires.Le code est disponible sur https://github.com/ShengcaiLiao/QAConv.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp