HyperAIHyperAI
il y a 2 mois

VGSG : Réseau de Groupes Sémantiques Guidé par la Vision pour la Recherche de Personnes Basée sur le Texte

He, Shuting ; Luo, Hao ; Jiang, Wei ; Jiang, Xudong ; Ding, Henghui
VGSG : Réseau de Groupes Sémantiques Guidé par la Vision pour la Recherche de Personnes Basée sur le Texte
Résumé

La recherche de personnes basée sur le texte (TBPS) vise à récupérer des images de piétons cibles indiquées par des descriptions textuelles. Il est essentiel pour la TBPS d'extraire des caractéristiques locales fines et de les aligner entre les modalités. Les méthodes existantes utilisent des outils externes ou une interaction croisée importante pour réaliser un alignement explicite des caractéristiques fines inter-modales, ce qui est inefficace et chronophage. Dans cette étude, nous proposons un réseau guidé par la vision et regroupant sémantiquement (Vision-Guided Semantic-Group Network, VGSG) pour la recherche de personnes basée sur le texte, afin d'extraire des caractéristiques visuelles et textuelles bien alignées et fines. Dans le VGSG proposé, nous développons un module d'apprentissage textuel regroupant sémantiquement (Semantic-Group Textual Learning, SGTL) et un module de transfert de connaissances guidé par la vision (Vision-guided Knowledge Transfer, VGKT) pour extraire des caractéristiques textuelles locales sous la direction de indices visuels locaux.Dans le SGTL, afin d'obtenir une représentation textuelle locale, nous regroupons les caractéristiques textuelles selon la dimension du canal en fonction des indices sémantiques de l'expression linguistique. Cette approche encourage implicitement le regroupement de motifs sémantiques similaires sans recourir à des outils externes. Dans le VGKT, une attention guidée par la vision est utilisée pour extraire des caractéristiques textuelles liées à la vision, qui sont naturellement alignées avec les indices visuels et appelées caractéristiques textuelles guidées par la vision.De plus, nous concevons un transfert relationnel de connaissances, comprenant un transfert de similarité vision-langue et un transfert de probabilité de classe, pour propager adaptivement l'information des caractéristiques textuelles guidées par la vision vers les caractéristiques textuelles regroupées sémantiquement. Grâce au transfert relationnel de connaissances, le VGKT est capable d'aligner les caractéristiques textuelles regroupées sémantiquement avec les caractéristiques visuelles correspondantes sans outils externes ni interactions paires complexes.Les résultats expérimentaux sur deux benchmarks difficiles démontrent sa supériorité par rapport aux méthodes actuellement en pointe dans ce domaine.