Omni-Scale Feature Learning für die Person-Wiedererkennung

Als ein Problem der Instanz-Level-Erkennung basiert die Person-Wiedererkennung (ReID) auf diskriminativen Merkmalen, die nicht nur verschiedene räumliche Skalen erfassen, sondern auch eine beliebige Kombination von mehreren Skalen umfassen. Wir bezeichnen Merkmale sowohl homogener als auch heterogener Skalen als omni-skalierte Merkmale. In dieser Arbeit wird ein neues tiefes ReID-CNN entwickelt, das als Omni-Scale Network (OSNet) bezeichnet wird, für das Lernen von omni-skalierten Merkmalen. Dies wird durch die Gestaltung eines Residualblocks erreicht, der aus mehreren Faltungsströmen besteht, wobei jeder Block Merkmale in einer bestimmten Skala erkennt. Wichtig ist dabei die Einführung eines neuen vereinten Aggregationsgates, das multi-skalierte Merkmale dynamisch mit eingegebensabhängigen Kanalgewichten fusioniert. Um räumlich-kanalbezogene Korrelationen effizient zu lernen und Overfitting zu vermeiden, verwendet der Baustein punktweise und tiefe Faltungen. Durch Schicht für Schicht solche Blöcke zu stapeln, ist unser OSNet extrem leichtgewichtig und kann von Grund auf auf bestehenden ReID-Benchmarks trainiert werden. Trotz seiner geringen Modellgröße erreicht OSNet den aktuellen Stand der Technik in sechs Person-ReID-Datensätzen und übertrifft die meisten großen Modelle oft deutlich. Der Quellcode und die Modelle sind unter folgender URL verfügbar: \url{https://github.com/KaiyangZhou/deep-person-reid}.