Command Palette
Search for a command to run...
Gemeinsames Lernen von Detektions- und Identifikationsmerkmalen für die Personensuche
Gemeinsames Lernen von Detektions- und Identifikationsmerkmalen für die Personensuche
Tong Xiao1∗ Shuang Li1∗ Bochao Wang2 Liang Lin2,3 Xiaogang Wang1
Zusammenfassung
Bestehende Benchmarks und Methoden für die Person-Wiedererkennung konzentrieren sich hauptsächlich auf das Matching von zugeschnittenen Fußgängerbildern zwischen Abfragen und Kandidaten. Dies unterscheidet sich jedoch von realen Szenarien, in denen die Annotationen von Fußgängerrahmen nicht verfügbar sind und die zu suchende Person aus einer Galerie von Bildern ganzer Szenen identifiziert werden muss. Um diese Lücke zu schließen, schlagen wir ein neues tiefes Lernframework für die Personensuche vor. Anstatt dies in zwei getrennte Aufgaben – Fußgängererkennung und Person-Wiedererkennung – aufzuteilen, behandeln wir beide Aspekte in einem einzigen konvolutionellen neuronalen Netzwerk gemeinsam. Eine Online-Instanz-Matching (OIM)-Funktion wurde vorgeschlagen, um das Netzwerk effektiv zu trainieren, wobei es skalierbar auf Datensätze mit zahlreichen Identitäten ist. Um unseren Ansatz zu validieren, haben wir ein groß angelegtes Benchmark-Datensatz für die Personensuche gesammelt und annotiert. Er enthält 18.184 Bilder, 8.432 Identitäten und 96.143 Fußgängerrahmen. Experimente zeigen, dass unser Framework andere getrennte Ansätze übertrifft und dass die vorgeschlagene OIM-Funktion viel schneller und besser als die herkömmliche Softmax-Funktion konvergiert.