Eine diskriminativ gelernte CNN-Einbettung für die Person-Wiedererkennung

Wir untersuchen zwei weit verbreitete Faltungsneuronale Netze (CNN) im Bereich der Person-Wiedererkennung (Re-ID), nämlich Verifizierungs- und Klassifikationsmodelle. Die beiden Modelle haben aufgrund unterschiedlicher Verlustfunktionen jeweils ihre eigenen Vorteile und Einschränkungen. In dieser Arbeit beleuchten wir, wie die beiden Modelle kombiniert werden können, um diskriminativere Fußgängerdeskriptoren zu lernen. Insbesondere schlagen wir ein neues Siamesisches Netzwerk vor, das gleichzeitig Identifikationsverlust und Verifizierungsverlust berechnet. Bei einem Paar von Trainingsbildern prognostiziert das Netzwerk die Identitäten der beiden Bilder sowie, ob sie derselben Identität angehören. Unser Netzwerk lernt sowohl eine diskriminative Einbettung als auch eine Ähnlichkeitsmessung gleichzeitig, wodurch es die vollständige Nutzung der Annotationen ermöglicht. Obwohl einfach, verbessert die gelernte Einbettung den Stand der Technik in Bezug auf die Leistung auf zwei öffentlichen Person-Re-ID-Benchmarks. Darüber hinaus zeigen wir, dass unsere Architektur auch in der Bildsuche angewendet werden kann.