MovieNet-PS: Ein großskaliges Personensuch-Datensatz im Freien

Die Personensuche zielt darauf ab, eine abgefragte Person sowohl räumlich zu lokalisieren als auch zu identifizieren, wobei natürliche, ungeschnittene Bilder als Eingabe dienen. In den letzten Jahren wurde dieses Thema intensiv erforscht. In diesem Artikel untersuchen wir die reichhaltige Kontextinformation, die sich global und lokal um die Zielperson herum befindet, die wir jeweils als Szenenkontext und Gruppenkontext bezeichnen. Im Gegensatz zu früheren Ansätzen, die diese beiden Kontexttypen getrennt behandeln, integrieren wir sie in einem einheitlichen global-lokalen Kontextnetzwerk (GLCNet), das das intuitive Ziel verfolgt, die Merkmalsdarstellung zu verbessern. Konkret werden Re-ID-Einbettungen und Kontextmerkmale in einer mehrstufigen Architektur gleichzeitig gelernt, was letztendlich zu verbesserten, differenzierenden Merkmalen für die Personensuche führt. Wir evaluieren unsere Methode an zwei gängigen Benchmarks für Personensuche (nämlich CUHK-SYSU und PRW) und erweitern sie zudem auf eine anspruchsvollere Aufgabenstellung (nämlich Charakterensuche auf MovieNet). Umfangreiche experimentelle Ergebnisse zeigen, dass das vorgeschlagene GLCNet auf allen drei Datensätzen konsistent gegenüber den aktuell besten Methoden überlegen ist. Die Quellcodes, vortrainierten Modelle sowie das neue Datenset sind öffentlich verfügbar unter: https://github.com/ZhengPeng7/GLCNet.