Hierarchisches Gumbel-Attention-Netzwerk für die textbasierte Personenrecherche
Textbasierte Personenretrieval-Ziele besteht darin, aus einer Galerie von Bildern diejenigen Personenbilder zu identifizieren, die am besten einer gegebenen textuellen Beschreibung entsprechen. Bisherige Methoden nutzen die Soft-Attention-Mechanismen, um semantische Zuordnungen zwischen Bildregionen und den entsprechenden Wörtern in einem Satz abzuleiten. Allerdings können diese Ansätze irrelevante multimodale Merkmale zusammenführen, was zu einem Problem der Überlappung bei der Übereinstimmung führt. In dieser Arbeit stellen wir ein neuartiges hierarchisches Gumbel-Attention-Netzwerk für die textbasierte Personenretrieval mittels des Gumbel-top-k-Reparameterisierungsalgorithmus vor. Konkret wählt es adaptiv die semantisch relevanten Bildregionen und die entsprechenden Wörter bzw. Wortgruppen aus Bildern und Texten aus, um eine präzise Ausrichtung und相似itätsberechnung zu ermöglichen. Diese harte Auswahlstrategie erlaubt die Fusion starker, relevanter multimodaler Merkmale und reduziert somit das Problem der Übereinstimmungsüberlappung. Gleichzeitig wird ein Gumbel-top-k-Reparameterisierungsalgorithmus entworfen, der als Niedrig-Varianz- und verzerrungsfreier Gradientenschätzer die Diskretheitsproblematik des harten Attention-Mechanismus auf end-to-end-Basis bewältigt. Darüber hinaus setzt das Modell eine hierarchische adaptive Übereinstimmungsstrategie ein, die auf drei unterschiedlichen Granularitätsstufen – Wort-, Phrasen- und Satzebene – für eine feinkörnige Übereinstimmung sorgt. Umfangreiche experimentelle Ergebnisse belegen die führende Leistungsfähigkeit. Im Vergleich zur bisher besten Methode erreichen wir auf dem CUHK-PEDES-Datensatz relative Verbesserungen um 8,24 % bei Rank-1 und 7,6 % bei mAP im Text-zu-Bild-Abfrage-Task sowie 5,58 % bei Rank-1 und 6,3 % bei mAP im Bild-zu-Text-Abfrage-Task.