HyperAIHyperAI

Command Palette

Search for a command to run...

Hierarchisches Gumbel-Attention-Netzwerk für die textbasierte Personenrecherche

Tao Mei Zheng-Jun Zha Jiawei Liu Wu Liu Kecheng Zheng

Zusammenfassung

Textbasierte Personenretrieval-Ziele besteht darin, aus einer Galerie von Bildern diejenigen Personenbilder zu identifizieren, die am besten einer gegebenen textuellen Beschreibung entsprechen. Bisherige Methoden nutzen die Soft-Attention-Mechanismen, um semantische Zuordnungen zwischen Bildregionen und den entsprechenden Wörtern in einem Satz abzuleiten. Allerdings können diese Ansätze irrelevante multimodale Merkmale zusammenführen, was zu einem Problem der Überlappung bei der Übereinstimmung führt. In dieser Arbeit stellen wir ein neuartiges hierarchisches Gumbel-Attention-Netzwerk für die textbasierte Personenretrieval mittels des Gumbel-top-k-Reparameterisierungsalgorithmus vor. Konkret wählt es adaptiv die semantisch relevanten Bildregionen und die entsprechenden Wörter bzw. Wortgruppen aus Bildern und Texten aus, um eine präzise Ausrichtung und相似itätsberechnung zu ermöglichen. Diese harte Auswahlstrategie erlaubt die Fusion starker, relevanter multimodaler Merkmale und reduziert somit das Problem der Übereinstimmungsüberlappung. Gleichzeitig wird ein Gumbel-top-k-Reparameterisierungsalgorithmus entworfen, der als Niedrig-Varianz- und verzerrungsfreier Gradientenschätzer die Diskretheitsproblematik des harten Attention-Mechanismus auf end-to-end-Basis bewältigt. Darüber hinaus setzt das Modell eine hierarchische adaptive Übereinstimmungsstrategie ein, die auf drei unterschiedlichen Granularitätsstufen – Wort-, Phrasen- und Satzebene – für eine feinkörnige Übereinstimmung sorgt. Umfangreiche experimentelle Ergebnisse belegen die führende Leistungsfähigkeit. Im Vergleich zur bisher besten Methode erreichen wir auf dem CUHK-PEDES-Datensatz relative Verbesserungen um 8,24 % bei Rank-1 und 7,6 % bei mAP im Text-zu-Bild-Abfrage-Task sowie 5,58 % bei Rank-1 und 6,3 % bei mAP im Bild-zu-Text-Abfrage-Task.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hierarchisches Gumbel-Attention-Netzwerk für die textbasierte Personenrecherche | Paper | HyperAI