HyperAIHyperAI
il y a 2 mois

Apprentissage de Correspondance Bruyante pour la Réidentification de Personnes de Texte à Image

Qin, Yang ; Chen, Yingke ; Peng, Dezhong ; Peng, Xi ; Zhou, Joey Tianyi ; Hu, Peng
Apprentissage de Correspondance Bruyante pour la Réidentification de Personnes de Texte à Image
Résumé

La reconnaissance de personnes par texte-à-image (TIReID) est un sujet captivant dans la communauté multimodale, visant à récupérer la personne cible en fonction d'une requête textuelle. Bien que de nombreuses méthodes TIReID aient été proposées et aient obtenu des performances prometteuses, elles supposent implicitement que les paires image-texte d'entraînement sont correctement alignées, ce qui n'est pas toujours le cas dans les scénarios réels. En pratique, les paires image-texte sont inévitablement sous-corélées ou même faussement corélées, également appelées correspondances bruyantes (NC), en raison de la mauvaise qualité des images et des erreurs d'annotation. Pour résoudre ce problème, nous proposons une nouvelle méthode d'Embedding Dual Robuste (RDE) capable d'apprendre des associations visuelles-sémantiques robustes même en présence de NC. Plus précisément, RDE se compose de deux composants principaux :1) Un module de Division Consensuelle Confiante (CCD) qui utilise les décisions double-grain des modules d'embedding dual pour obtenir un ensemble consensuel de données d'entraînement propres, permettant ainsi au modèle d'apprendre des associations visuelles-sémantiques correctes et fiables.2) Une perte d'Alignement Triplet (TAL) qui relâche la perte de Classement Triplet conventionnelle avec les échantillons négatifs les plus difficiles vers une borne supérieure logarithmo-exponentielle sur tous les échantillons négatifs, empêchant ainsi l'effondrement du modèle sous NC et permettant également de se concentrer sur les échantillons négatifs difficiles pour une performance prometteuse.Nous menons des expériences approfondies sur trois benchmarks publics, à savoir CUHK-PEDES, ICFG-PEDES et RSTPReID, afin d'évaluer les performances et la robustesse de notre méthode RDE. Notre méthode atteint des résultats de pointe tant avec que sans correspondances bruyantes synthétiques sur l'ensemble des trois jeux de données. Le code source est disponible à l'adresse suivante : https://github.com/QinYang79/RDE.