Lernen allgemein gültiger, omnischaler Darstellungen für die Personenwiedererkennung

Ein effektives Modell für die Personen-Identifikation (re-ID) sollte Merkmalsdarstellungen erlernen, die sowohl diskriminativ sind – um Personen mit ähnlicher Ähnlichkeit voneinander zu unterscheiden – als auch generalisierbar, um ohne jegliche Anpassung über verschiedene Datensätze hinweg eingesetzt werden zu können. In diesem Artikel entwickeln wir neuartige CNN-Architekturen, um beide Herausforderungen anzugehen. Zunächst stellen wir ein re-ID-CNN namens Omni-Scale Network (OSNet) vor, das Merkmale lernt, die nicht nur verschiedene räumliche Skalen erfassen, sondern auch eine synergistische Kombination mehrerer Skalen enthalten, sogenannte Omni-Scale-Merkmale. Der grundlegende Baustein besteht aus mehreren konvolutionellen Strömen, wobei jeder Ström einen bestimmten Skalenbereich erfasst. Für die Lernung von Omni-Scale-Merkmale wird ein einheitlicher Aggregationsgatter eingeführt, der mehrskalige Merkmale dynamisch mit kanalweisen Gewichten fusioniert. OSNet ist leichtgewichtig, da seine Bausteine aus faktorisierten Konvolutionen bestehen. Zweitens verbessern wir die Generalisierbarkeit der Merkmalslernung, indem wir Instanznormalisierung (Instance Normalization, IN) in OSNet integrieren, um Unterschiede zwischen Datensätzen zu bewältigen. Darüber hinaus formulieren wir einen effizienten, differenzierbaren Architektursuchalgorithmus, um die optimalen Positionen dieser IN-Schichten innerhalb der Architektur zu bestimmen. Umfangreiche Experimente zeigen, dass OSNet im klassischen Szenario mit identischem Datensatz Zustand-des-Kunst-Leistungen erreicht, obwohl es deutlich kleiner als bisherige re-ID-Modelle ist. Im anspruchsvolleren, aber praktischeren Szenario mit unterschiedlichen Datensätzen übertrifft OSNet die meisten jüngsten Methoden für unsupervisierte Domänenanpassung, ohne dass Ziel-Datensätze verwendet werden müssen. Unser Code und die Modelle sind unter \texttt{https://github.com/KaiyangZhou/deep-person-reid} verfügbar.