Adaptation Adaptative Bimodale pour la Recherche de Personnes de Texte à Image

La réidentification de personnes (ReID) basée sur le texte vers l'image vise à récupérer des images d'une personne en fonction d'une description textuelle donnée. Le défi principal consiste à apprendre les relations entre les informations détaillées provenant des modalités visuelle et textuelle. Les travaux existants se concentrent sur l'apprentissage d'un espace latent pour réduire l'écart entre les modalités et établir davantage de correspondances locales entre ces deux modalités. Cependant, ces méthodes supposent que les associations image-texte et texte-image sont indépendantes des modalités, ce qui entraîne des associations sous-optimales.Dans cette étude, nous montrons la disparité entre l'association image-texte et l'association texte-image, et nous proposons CADA : Cross-Modal Adaptive Dual Association (CADA), qui construit finement des associations détaillées bidirectionnelles entre l'image et le texte. Notre approche met en avant un module d'association duale adaptative basé sur un décodeur, permettant une interaction complète entre les modalités visuelle et textuelle, ainsi que des associations bidirectionnelles et adaptatives de correspondance intermodale.Plus précisément, cet article propose un mécanisme d'association bidirectionnelle : Association de Tokens textuels à Patches d'image (ATP) et Association de Régions d'image à Attributs textuels (ARA). Nous modélisons de manière adaptative l'ATP en tenant compte du fait qu'agréger des caractéristiques intermodales basées sur des associations erronées entraînera une distorsion des caractéristiques. Pour modéliser l'ARA, étant donné que les attributs sont généralement les premiers indices distinctifs d'une personne, nous proposons d'explorer l'association au niveau attributaire en prédiction la phrase masquée du texte à partir de la région d'image associée.Enfin, nous apprenons les associations duales entre le texte et l'image, et les résultats expérimentaux démontrent la supériorité de notre formulation duale. Le code sera rendu publiquement disponible.