MARS : Accorder plus d'attention aux attributs visuels pour la recherche de personnes basée sur le texte

La recherche de personnes basée sur le texte (TBPS) est un problème qui a suscité un intérêt considérable au sein de la communauté scientifique. La tâche consiste à récupérer une ou plusieurs images d'un individu spécifique en se basant sur une description textuelle. La nature multi-modale de cette tâche nécessite d'apprendre des représentations qui relient les données textuelles et visuelles dans un espace latent partagé. Les systèmes TBPS existants font face à deux défis majeurs. Le premier est défini comme le bruit inter-identités, qui résulte de l'ambiguïté et de l'imprécision inhérentes aux descriptions textuelles, et il indique comment les descriptions des attributs visuels peuvent être généralement associées à différentes personnes ; le second est le bruit intra-identités, qui englobe toutes les variations susceptibles d'altérer l'apparence visuelle des mêmes attributs textuels pour un sujet donné, par exemple la posture, l'éclairage.Pour résoudre ces problèmes, cet article présente une nouvelle architecture TBPS nommée MARS (Mae-Attribute-Relation-Sensitive), qui améliore les modèles actuels en introduisant deux composantes clés : une perte de reconstruction visuelle et une perte d'attribut. La première utilise un AutoEncodeur masqué formé pour reconstruire des patchs d'image masqués aléatoirement avec l'aide de la description textuelle. En procédant ainsi, le modèle est encouragé à apprendre des représentations plus expressives et des relations textuelles-visuelles dans l'espace latent. La perte d'attribut, quant à elle, équilibre la contribution de différents types d'attributs, définis comme des segments adjectif-nom du texte. Cette perte garantit que chaque attribut soit pris en compte dans le processus de recherche de personnes.Des expériences approfondies menées sur trois jeux de données couramment utilisés, à savoir CUHK-PEDES, ICFG-PEDES et RSTPReid, ont rapporté des améliorations des performances, avec des gains significatifs dans la métrique moyenne de précision moyenne (mAP) par rapport à l'état actuel de l'art.