VGSG: Vision-Guided Semantic-Group Netzwerk für textbasierte Personensuche

Textbasierte Personen-Suche (TBPS) zielt darauf ab, Bilder des Ziel-Pedestriers anhand textbasierter Beschreibungen zu retrivieren. Für TBPS ist es entscheidend, feingranuläre lokale Merkmale zu extrahieren und diese über die Modalität hinweg auszurichten. Bestehende Methoden nutzen externe Werkzeuge oder intensive intermodale Interaktionen, um eine explizite Ausrichtung der intermodalen feingranulären Merkmale zu erreichen, was ineffizient und zeitaufwendig ist. In dieser Arbeit schlagen wir ein visuell geleitetes semantisch-gruppiertes Netzwerk (Vision-Guided Semantic-Group Network, VGSG) für textbasierte Personen-Suche vor, um gut ausgerichtete feingranuläre visuelle und textuelle Merkmale zu extrahieren. Im vorgeschlagenen VGSG entwickeln wir ein Modul zur semantisch-gruppierten textuellen Lernung (Semantic-Group Textual Learning, SGTL) und ein Modul zur visuell geleiteten Wissensübertragung (Vision-guided Knowledge Transfer, VGKT), um textuelle lokale Merkmale unter der Anleitung visueller lokaler Hinweise zu extrahieren. Im SGTL-Modul gruppieren wir textuelle Merkmale entlang der Kanaldimension auf der Grundlage semantischer Hinweise in der Sprachausdrucksweise. Dies fördert die implizite Gruppierung ähnlicher semantischer Muster ohne externe Werkzeuge. Im VGKT-Modul wird eine visuell geleitete Aufmerksamkeit verwendet, um visuell relevante textuelle Merkmale zu extrahieren, die intrinsisch mit visuellen Hinweisen ausgerichtet sind und als visuell geleitete textuelle Merkmale bezeichnet werden. Darüber hinaus gestalten wir eine relationale Wissensübertragung, die eine Übertragung der Ähnlichkeit zwischen Vision und Sprache sowie eine Klassenwahrscheinlichkeitsübertragung einschließt. Diese ermöglicht es, Informationen der visuell geleiteten textuellen Merkmale auf die semantisch-gruppierten textuellen Merkmale anpassbar weiterzuleiten. Mit Hilfe der relationalen Wissensübertragung ist das VGKT-Modul in der Lage, semantisch-gruppierte textuelle Merkmale mit den entsprechenden visuellen Merkmalen auszurichten, ohne externe Werkzeuge oder komplexe paarweise Interaktionen zu benötigen. Experimentelle Ergebnisse auf zwei anspruchsvollen Benchmarks demonstrieren seine Überlegenheit gegenüber den neuesten Methoden.