Amélioration de la représentation visuelle profonde pour la réidentification des personnes par association globale et locale d'images et de langage

La réidentification de personnes est une tâche importante qui nécessite d'apprendre des caractéristiques visuelles discriminantes pour distinguer différentes identités de personnes. Diverses informations auxiliaires ont été utilisées pour améliorer l'apprentissage des caractéristiques visuelles. Dans cet article, nous proposons d'exploiter les descriptions en langage naturel comme supervisions supplémentaires pour un apprentissage efficace des caractéristiques visuelles. Comparativement à d'autres informations auxiliaires, le langage peut décrire une personne spécifique sous des aspects visuels plus compacts et sémantiques, ce qui le rend complémentaire aux données d'images au niveau des pixels. Notre méthode non seulement apprend de meilleures caractéristiques visuelles globales grâce à la supervision de la description générale, mais elle renforce également les cohérences sémantiques entre les caractéristiques visuelles locales et linguistiques, ce qui est réalisé en établissant des associations globales et locales entre les images et le langage. L'association globale image-langage est établie selon les étiquettes d'identité, tandis que l'association locale repose sur les correspondances implicites entre les régions d'image et les phrases nominales. De nombreuses expériences montrent l'efficacité de l'utilisation du langage comme supervision d'entraînement avec ces deux schémas d'association. Notre méthode atteint des performances de pointe sans utiliser aucune information auxiliaire lors des tests et montre de meilleures performances que d'autres méthodes de plongement conjoint pour l'association image-langage.