HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen bei verrauschten Korrespondenzen für die Text-zu-Bild-Personen-Wiedererkennung

Yang Qin Yingke Chen Dezhong Peng Xi Peng Joey Tianyi Zhou Peng Hu

Zusammenfassung

Text-to-Image Person Re-Identification (TIReID) ist ein spannendes Thema in der Kreuzmodalen Gemeinschaft, das darauf abzielt, eine Zielperson auf Grundlage einer textuellen Abfrage zu identifizieren. Obwohl zahlreiche TIReID-Methoden vorgeschlagen wurden und vielversprechende Ergebnisse erzielt haben, gehen sie implizit davon aus, dass die Trainingsdatenpaare von Bildern und Text korrekt zugeordnet sind, was in der Praxis nicht immer der Fall ist. In der Realität entstehen die Bild-Text-Paare unvermeidlich unterkorreliert oder sogar falsch korreliert, auch als noisy correspondence (NC) bezeichnet, aufgrund der geringen Qualität der Bilder und Annotationfehler. Um dieses Problem anzugehen, schlagen wir eine neuartige Robuste Doppelte Einbettungsmethode (RDE) vor, die robuste visuelle-semantische Assoziationen auch bei NC lernen kann. Insbesondere besteht RDE aus zwei Hauptkomponenten: 1) Einem Modul zur sicheren Konsensdivision (CCD), das die doppelt granularen Entscheidungen von Doppel-Einbettungsmodulen nutzt, um einen konsistenten Satz sauberer Trainingsdaten zu erhalten. Dies ermöglicht es dem Modell, korrekte und verlässliche visuelle-semantische Assoziationen zu lernen. 2) Einem Tripletten-Ausrichtungsverlust (TAL), der den konventionellen Tripletten-Rangverlust mit den schwierigsten negativen Beispielen durch eine logarithmisch-exponentielle obere Schranke für alle negativen Beispiele abschwächt. Dadurch wird sowohl das Zusammenbruch des Modells unter NC verhindert als auch der Fokus auf schwierige negative Beispiele gesetzt, um vielversprechende Leistungen zu erzielen. Wir führen umfangreiche Experimente auf drei öffentlichen Benchmarks durch – nämlich CUHK-PEDES, ICFG-PEDES und RSTPReID – um die Leistungsfähigkeit und Robustheit unserer RDE zu bewerten. Unsere Methode erreicht den aktuellen Stand der Technik sowohl mit als auch ohne synthetische noisy correspondences auf allen drei Datensätzen. Der Quellcode ist unter https://github.com/QinYang79/RDE verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp