HyperAIHyperAI

Command Palette

Search for a command to run...

DSSL: Tiefes Lernen zur Trennung von Umgebung und Person für textbasierte Personensuche

Aichun Zhu Zijie Wang Yifeng Li Xili Wan Jing Jin Tian Wang Fangqiang Hu Gang Hua

Zusammenfassung

Viele frühere Ansätze für textbasierte Personenretrieval-Aufgaben widmen sich dem Lernen einer latenten gemeinsamen Raumabbildung, mit dem Ziel, modalitätsinvariante Merkmale sowohl aus der visuellen als auch aus der textuellen Modalität zu extrahieren. Dennoch sind die unbeschränkten Abbildungsparadigmen aufgrund der Komplexität hochdimensionaler Daten nicht in der Lage, diskriminierende Hinweise zur entsprechenden Person angemessen zu erfassen und gleichzeitig fehlalignierte Informationen zu verwerfen. Intuitiv lässt sich die Information, die in visuellen Daten enthalten ist, in Personeninformation (PI) und Umgebungsinformation (SI) unterteilen, wobei diese voneinander gegenseitig ausschließen. Zu diesem Zweck schlagen wir in dieser Arbeit ein neues tiefes Modell zur Trennung von Umgebung und Person (Deep Surroundings-Person Separation Learning, DSSL) vor, um effektiv Personeninformationen zu extrahieren und abzugleichen und somit eine überlegene Retrieval-Genauigkeit zu erzielen. Ein Mechanismus zur Trennung und Fusion von Umgebung und Person spielt dabei die entscheidende Rolle, um eine genaue und effektive Trennung unter einem gegenseitigen Ausschlusszwang sicherzustellen. Um multimodale und multigranulare Informationen vollständig für eine höhere Retrieval-Genauigkeit zu nutzen, werden fünf verschiedene Alignment-Paradigmen eingesetzt. Ausführliche Experimente wurden durchgeführt, um das vorgeschlagene DSSL auf CUHK-PEDES zu evaluieren, was aktuell der einzige zugängliche Datensatz für textbasierte Personenretrieval-Aufgaben ist. DSSL erreicht den aktuellen Stand der Technik auf CUHK-PEDES. Um unser vorgeschlagenes DSSL in realen Szenarien angemessen zu evaluieren, wurde ein Datensatz zur textbasierten Personen-Wiedererkennung in realen Szenarien (Real Scenarios Text-based Person Reidentification, RSTPReid) erstellt, um zukünftige Forschungen im Bereich der textbasierten Personenretrieval zu fördern. Dieser Datensatz wird öffentlich zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp