Command Palette
Search for a command to run...
Lernen bei verrauschten Korrespondenzen für die Text-zu-Bild-Personen-Wiedererkennung
Lernen bei verrauschten Korrespondenzen für die Text-zu-Bild-Personen-Wiedererkennung
Yang Qin Yingke Chen Dezhong Peng Xi Peng Joey Tianyi Zhou Peng Hu
Zusammenfassung
Text-to-Image Person Re-Identification (TIReID) ist ein spannendes Thema in der Kreuzmodalen Gemeinschaft, das darauf abzielt, eine Zielperson auf Grundlage einer textuellen Abfrage zu identifizieren. Obwohl zahlreiche TIReID-Methoden vorgeschlagen wurden und vielversprechende Ergebnisse erzielt haben, gehen sie implizit davon aus, dass die Trainingsdatenpaare von Bildern und Text korrekt zugeordnet sind, was in der Praxis nicht immer der Fall ist. In der Realität entstehen die Bild-Text-Paare unvermeidlich unterkorreliert oder sogar falsch korreliert, auch als noisy correspondence (NC) bezeichnet, aufgrund der geringen Qualität der Bilder und Annotationfehler. Um dieses Problem anzugehen, schlagen wir eine neuartige Robuste Doppelte Einbettungsmethode (RDE) vor, die robuste visuelle-semantische Assoziationen auch bei NC lernen kann. Insbesondere besteht RDE aus zwei Hauptkomponenten: 1) Einem Modul zur sicheren Konsensdivision (CCD), das die doppelt granularen Entscheidungen von Doppel-Einbettungsmodulen nutzt, um einen konsistenten Satz sauberer Trainingsdaten zu erhalten. Dies ermöglicht es dem Modell, korrekte und verlässliche visuelle-semantische Assoziationen zu lernen. 2) Einem Tripletten-Ausrichtungsverlust (TAL), der den konventionellen Tripletten-Rangverlust mit den schwierigsten negativen Beispielen durch eine logarithmisch-exponentielle obere Schranke für alle negativen Beispiele abschwächt. Dadurch wird sowohl das Zusammenbruch des Modells unter NC verhindert als auch der Fokus auf schwierige negative Beispiele gesetzt, um vielversprechende Leistungen zu erzielen. Wir führen umfangreiche Experimente auf drei öffentlichen Benchmarks durch – nämlich CUHK-PEDES, ICFG-PEDES und RSTPReID – um die Leistungsfähigkeit und Robustheit unserer RDE zu bewerten. Unsere Methode erreicht den aktuellen Stand der Technik sowohl mit als auch ohne synthetische noisy correspondences auf allen drei Datensätzen. Der Quellcode ist unter https://github.com/QinYang79/RDE verfügbar.