RaSa: Relation und Sensitivitätsbewusstes Repräsentationslernen für textbasierte PersonenSuche

Die textbasierte Personensuche zielt darauf ab, die angegebenen Personenbilder anhand einer textuellen Beschreibung zu ermitteln. Der Schlüssel zur Bewältigung dieser anspruchsvollen Aufgabe besteht darin, leistungsfähige multimodale Repräsentationen zu lernen. Hierzu schlagen wir eine Methode zum Lernen von Relation- und Sensitivitätsbewussten Repräsentationen (RaSa) vor, die zwei innovative Aufgaben umfasst: Relation-Bewusstes Lernen (RB) und Sensitivitäts-Bewusstes Lernen (SB).Einerseits neigen bestehende Methoden dazu, die Repräsentationen aller positiven Paare ohne Unterscheidung zu gruppieren und das durch schwache positive Paare verursachte Rauschen zu übersehen, bei denen Text und zugehöriges Bild ungenaue Korrespondenzen aufweisen. RB mindert das Überanpassungsrisiko, indem es eine neuartige positive Beziehungsidentifikationsaufgabe (d.h., das Lernen, starke und schwache positive Paare zu unterscheiden) einführt.Andererseits ist das Lernen von invarianten Repräsentationen unter Datenverstärkung (d.h., Unempfindlichkeit gegenüber bestimmten Transformationen) eine weit verbreitete Praxis zur Verbesserung der Robustheit der Repräsentation in bestehenden Methoden. Darüber hinainau ermutigen wir durch SB die Repräsentation, sensible Transformationen wahrzunehmen (d.h., das Lernen, ersetzte Wörter zu erkennen), was die Robustheit der Repräsentation weiter fördert.Experimente zeigen, dass RaSa in Bezug auf den Rank@1-Wert um 6,94 %, 4,45 % und 15,35 % besser abschneidet als die bisher besten Methoden auf den Datensätzen CUHK-PEDES, ICFG-PEDES und RSTPReid. Der Quellcode ist unter folgendem Link verfügbar: https://github.com/Flame-Chasers/RaSa.