Gated Siamese Faltungsneuronales Netzwerk für die Wiedererkennung von Menschen

Das Zuordnen von Fußgängern über mehrere Kameraperspektiven hinweg, auch als menschliche Re-Identifikation bekannt, ist ein anspruchsvolles Forschungsproblem mit zahlreichen Anwendungen im visuellen Überwachungsbereich. Mit der Wiederbelebung von Faltungsneuronalen Netzen (CNNs) wurden mehrere end-to-end tiefen Siamesischen CNN-Architekturen vorgeschlagen, um die Re-Identifikation von Menschen zu verbessern. Das Ziel dieser Architekturen besteht darin, die Bilder ähnlicher Paare (d.h. derselbe Identität) näher aneinander zu projizieren und die Bilder unähnlicher Paare weiter voneinander zu entfernen. Aktuelle Netzwerke extrahieren jedoch feste Darstellungen für jedes Bild, unabhängig von den anderen Bildern, mit denen sie gepaart werden, und der Vergleich mit anderen Bildern erfolgt erst auf der abschließenden Ebene. In diesem Szenario besteht das Risiko, dass das Netzwerk feinere lokale Muster nicht erfasst, die möglicherweise entscheidend sind, um positive Paare von schwierigen negativen Paaren zu unterscheiden. In dieser Arbeit schlagen wir eine Gating-Funktion vor, um solche feinen gemeinsamen lokalen Muster selektiv hervorzuheben, indem wir die mittleren Ebenenfeatures über Bildpaare hinweg vergleichen. Dies führt zu flexiblen Darstellungen des gleichen Bildes je nach den Bildern, mit denen es gepaart wird. Wir führen Experimente auf den Datensätzen CUHK03, Market-1501 und VIPeR durch und zeigen eine verbesserte Leistung im Vergleich zu einer Baseline-Siamesischen CNN-Architektur.