TIPCB: Eine einfache, aber effektive teilbasierte Faltungsbasis für textbasierte PersonenSuche

Textbasierte Personensuche ist eine Unterabgabe im Bereich der Bildsuche, die darauf abzielt, Zielbildern von Personen gemäß einer gegebenen textuellen Beschreibung zuzuordnen. Die erhebliche Unterschiedlichkeit der Merkmale zwischen den beiden Modalitäten macht diese Aufgabe sehr herausfordernd. Viele bestehende Methoden versuchen, durch lokale Ausrichtung dieses Problem auf feinebene zu lösen. Allerdings führen die meisten relevanten Ansätze zusätzliche Modelle oder komplizierte Trainings- und Evaluationsstrategien ein, die in realistischen Szenarien schwer anwendbar sind. Um die praktische Anwendung zu erleichtern, schlagen wir einen einfachen aber effektiven End-to-End-Lernrahmen für textbasierte Personensuche vor, den TIPCB (d.h., Text-Bild Teile-basierter Faltungsansatz [Text-Image Part-based Convolutional Baseline]). Zunächst wird eine neuartige Netzstruktur mit doppelter Pfadlokalisierung vorgeschlagen, um visuelle und textuelle lokale Darstellungen zu extrahieren, wobei Bilder horizontal segmentiert und Texte adaptiv ausgerichtet werden. Anschließend entwickeln wir eine mehrstufige multimodale Abstimmungsstrategie, die den Modalitätsunterschied auf drei Merkmalsniveaus beseitigt: niedriges Niveau, lokales Niveau und globales Niveau. Ausführliche Experimente wurden auf dem weit verbreiteten Benchmark-Datensatz (CUHK-PEDES) durchgeführt und zeigen, dass unsere Methode in Bezug auf Top-1, Top-5 und Top-10 um 3,69 %, 2,95 % und 2,31 % besser abschneidet als die besten bisher bekannten Methoden. Unser Code wurde veröffentlicht unter https://github.com/OrangeYHChen/TIPCB.