vor 2 Monaten

Verbesserung der tiefen visuellen Repräsentation für die Person-Wiedererkennung durch globale und lokale Bild-Sprach-Assoziation

Chen, Dapeng ; Li, Hongsheng ; Liu, Xihui ; Shen, Yantao ; Yuan, Zejian ; Wang, Xiaogang

Abstract

Die Person-Reidentifikation ist eine wichtige Aufgabe, die das Lernen diskriminativer visueller Merkmale zur Unterscheidung verschiedener Personenidentitäten erfordert. Verschiedene zusätzliche Informationen wurden genutzt, um das Lernen von visuellen Merkmalen zu verbessern. In dieser Arbeit schlagen wir vor, natürliche Sprachbeschreibungen als zusätzliche Trainingsüberwachungen für effektive visuelle Merkmale zu nutzen. Im Vergleich zu anderen zusätzlichen Informationen kann Sprache eine spezifische Person aus kompakteren und semantischeren visuellen Aspekten beschreiben und ist daher ergänzend zu den pixelbasierten Bild-Daten. Unsere Methode lernt nicht nur bessere globale visuelle Merkmale durch die Überwachung der Gesamtbeschreibung, sondern verstärkt auch die semantische Konsistenz zwischen lokalen visuellen und sprachlichen Merkmalen, was durch die Erstellung globaler und lokaler Bild-Sprach-Assoziationen erreicht wird. Die globale Bild-Sprach-Assoziation wird auf Grundlage der Identitätslabels hergestellt, während die lokale Assoziation auf den impliziten Korrespondenzen zwischen Bildbereichen und Substantivphrasen basiert. Ausführliche Experimente zeigen die Effektivität des Einsatzes von Sprache als Trainingsüberwachungen mit den beiden Assoziationsverfahren. Unsere Methode erreicht den aktuellen Stand der Technik ohne Nutzung zusätzlicher Informationen während des Testens und zeigt bessere Leistungen als andere Methoden zur gemeinsamen Einbettung für die Bild-Sprach-Assoziation.