HyperAIHyperAI

Command Palette

Search for a command to run...

VGSG: Vision-Guided Semantic-Group Netzwerk für textbasierte Personensuche

Shuting He Hao Luo Wei Jiang Xudong Jiang IEEE Fellow Henghui Ding

Zusammenfassung

Textbasierte Personen-Suche (TBPS) zielt darauf ab, Bilder des Ziel-Pedestriers anhand textbasierter Beschreibungen zu retrivieren. Für TBPS ist es entscheidend, feingranuläre lokale Merkmale zu extrahieren und diese über die Modalität hinweg auszurichten. Bestehende Methoden nutzen externe Werkzeuge oder intensive intermodale Interaktionen, um eine explizite Ausrichtung der intermodalen feingranulären Merkmale zu erreichen, was ineffizient und zeitaufwendig ist. In dieser Arbeit schlagen wir ein visuell geleitetes semantisch-gruppiertes Netzwerk (Vision-Guided Semantic-Group Network, VGSG) für textbasierte Personen-Suche vor, um gut ausgerichtete feingranuläre visuelle und textuelle Merkmale zu extrahieren. Im vorgeschlagenen VGSG entwickeln wir ein Modul zur semantisch-gruppierten textuellen Lernung (Semantic-Group Textual Learning, SGTL) und ein Modul zur visuell geleiteten Wissensübertragung (Vision-guided Knowledge Transfer, VGKT), um textuelle lokale Merkmale unter der Anleitung visueller lokaler Hinweise zu extrahieren. Im SGTL-Modul gruppieren wir textuelle Merkmale entlang der Kanaldimension auf der Grundlage semantischer Hinweise in der Sprachausdrucksweise. Dies fördert die implizite Gruppierung ähnlicher semantischer Muster ohne externe Werkzeuge. Im VGKT-Modul wird eine visuell geleitete Aufmerksamkeit verwendet, um visuell relevante textuelle Merkmale zu extrahieren, die intrinsisch mit visuellen Hinweisen ausgerichtet sind und als visuell geleitete textuelle Merkmale bezeichnet werden. Darüber hinaus gestalten wir eine relationale Wissensübertragung, die eine Übertragung der Ähnlichkeit zwischen Vision und Sprache sowie eine Klassenwahrscheinlichkeitsübertragung einschließt. Diese ermöglicht es, Informationen der visuell geleiteten textuellen Merkmale auf die semantisch-gruppierten textuellen Merkmale anpassbar weiterzuleiten. Mit Hilfe der relationalen Wissensübertragung ist das VGKT-Modul in der Lage, semantisch-gruppierte textuelle Merkmale mit den entsprechenden visuellen Merkmalen auszurichten, ohne externe Werkzeuge oder komplexe paarweise Interaktionen zu benötigen. Experimentelle Ergebnisse auf zwei anspruchsvollen Benchmarks demonstrieren seine Überlegenheit gegenüber den neuesten Methoden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp