HyperAIHyperAI
vor 2 Monaten

DSSL: Tiefes Lernen zur Trennung von Umgebung und Person für textbasierte Personensuche

Zhu, Aichun ; Wang, Zijie ; Li, Yifeng ; Wan, Xili ; Jin, Jing ; Wang, Tian ; Hu, Fangqiang ; Hua, Gang
DSSL: Tiefes Lernen zur Trennung von Umgebung und Person für textbasierte Personensuche
Abstract

Viele frühere Ansätze für textbasierte Personenretrieval-Aufgaben widmen sich dem Lernen einer latenten gemeinsamen Raumabbildung, mit dem Ziel, modalitätsinvariante Merkmale sowohl aus der visuellen als auch aus der textuellen Modalität zu extrahieren. Dennoch sind die unbeschränkten Abbildungsparadigmen aufgrund der Komplexität hochdimensionaler Daten nicht in der Lage, diskriminierende Hinweise zur entsprechenden Person angemessen zu erfassen und gleichzeitig fehlalignierte Informationen zu verwerfen. Intuitiv lässt sich die Information, die in visuellen Daten enthalten ist, in Personeninformation (PI) und Umgebungsinformation (SI) unterteilen, wobei diese voneinander gegenseitig ausschließen. Zu diesem Zweck schlagen wir in dieser Arbeit ein neues tiefes Modell zur Trennung von Umgebung und Person (Deep Surroundings-Person Separation Learning, DSSL) vor, um effektiv Personeninformationen zu extrahieren und abzugleichen und somit eine überlegene Retrieval-Genauigkeit zu erzielen. Ein Mechanismus zur Trennung und Fusion von Umgebung und Person spielt dabei die entscheidende Rolle, um eine genaue und effektive Trennung unter einem gegenseitigen Ausschlusszwang sicherzustellen. Um multimodale und multigranulare Informationen vollständig für eine höhere Retrieval-Genauigkeit zu nutzen, werden fünf verschiedene Alignment-Paradigmen eingesetzt. Ausführliche Experimente wurden durchgeführt, um das vorgeschlagene DSSL auf CUHK-PEDES zu evaluieren, was aktuell der einzige zugängliche Datensatz für textbasierte Personenretrieval-Aufgaben ist. DSSL erreicht den aktuellen Stand der Technik auf CUHK-PEDES. Um unser vorgeschlagenes DSSL in realen Szenarien angemessen zu evaluieren, wurde ein Datensatz zur textbasierten Personen-Wiedererkennung in realen Szenarien (Real Scenarios Text-based Person Reidentification, RSTPReid) erstellt, um zukünftige Forschungen im Bereich der textbasierten Personenretrieval zu fördern. Dieser Datensatz wird öffentlich zugänglich gemacht.