Semantisch selbstaligniertes Netzwerk für textbasierte, teilbewusste Person-Reidentifizierung

Text-to-Image Person Re-Identification (ReID) strebt danach, Bilder zu suchen, die eine bestimmte Person enthalten, mithilfe textbasierter Beschreibungen. Aufgrund der erheblichen Modalitätslücke und der großen innerklassischen Varianz in den textuellen Beschreibungen bleibt Text-to-Image ReID jedoch ein anspruchsvolles Problem. In dieser Arbeit schlagen wir daher ein semantisch selbstausrichtendes Netzwerk (Semantically Self-Aligned Network, SSAN) vor, um die genannten Probleme zu bewältigen.Erstens entwickeln wir eine neuartige Methode, die semantisch ausgerichtete Teilmerkmale automatisch aus den beiden Modalitäten extrahiert. Zweitens gestalten wir ein Multi-View Non-Local Netzwerk, das die Beziehungen zwischen Körperteilen erfasst und so bessere Korrespondenzen zwischen Körperteilen und Substantivphrasen herstellt. Drittens führen wir einen Compound-Ranking (CR)-Verlust ein, der textuelle Beschreibungen von anderen Bildern derselben Identität nutzt, um zusätzliche Überwachung zu bieten und damit die innerklassische Varianz in den textuellen Merkmalen effektiv zu reduzieren. Schließlich, um zukünftige Forschung im Bereich Text-to-Image ReID zu fördern, haben wir eine neue Datenbank namens ICFG-PEDES erstellt.Ausführliche Experimente zeigen, dass SSAN deutlich über den aktuellen Stand der Technik hinausgeht. Sowohl die neue ICFG-PEDES-Datenbank als auch der SSAN-Code sind unter https://github.com/zifyloo/SSAN verfügbar.