Kaskadierte Pyramiden-Netzwerk für die Mehrpersonen-Pose-Schätzung

Das Thema der Mehrpersonen-Pose-Schätzung wurde in letzter Zeit erheblich verbessert, insbesondere durch die Entwicklung von Faltungsneuronalen Netzen (Convolutional Neural Networks). Dennoch gibt es noch viele herausfordernde Fälle, wie verdeckte Schlüsselpunkte, unsichtbare Schlüsselpunkte und komplexe Hintergründe, die nicht gut gelöst werden können. In dieser Arbeit stellen wir eine neuartige Netzstruktur vor, das Cascaded Pyramid Network (CPN), das darauf abzielt, das Problem dieser "schwierigen" Schlüsselpunkte zu lindern. Unser Algorithmus umfasst zwei Stufen: GlobalNet und RefineNet. Das GlobalNet ist ein Merkmalspyramiden-Netzwerk, das in der Lage ist, "einfache" Schlüsselpunkte wie Augen und Hände erfolgreich zu lokalisieren, aber möglicherweise versagt bei der präzisen Erkennung von verdeckten oder unsichtbaren Schlüsselpunkten. Unser RefineNet versucht explizit mit den "schwierigen" Schlüsselpunkten umzugehen, indem es alle Ebenen der Merkmalsrepräsentationen vom GlobalNet zusammen mit einem Online-Hard-Keypoint-Mining-Verlust integriert. Im Allgemeinen wird zur Lösung des Problems der Mehrpersonen-Pose-Schätzung ein Top-Down-Prozess verwendet, bei dem zunächst eine Reihe von menschlichen Begrenzungsrahmen auf Basis eines Detektors generiert wird, gefolgt von unserem CPN für die Lokalisierung der Schlüsselpunkte in jedem menschlichen Begrenzungsrahmen. Basierend auf dem vorgeschlagenen Algorithmus erreichen wir Stand-of-the-Art-Ergebnisse im COCO-Schlüsselpunkt-Benchmark, mit einer durchschnittlichen Genauigkeit von 73,0 auf dem COCO Test-Dev-Datensatz und 72,1 auf dem COCO Test-Challenge-Datensatz. Dies stellt eine relative Verbesserung von 19 % im Vergleich zu 60,5 beim COCO 2016 KeyPoint Challenge dar. Der Code (https://github.com/chenyilun95/tf-cpn.git) und die Detektionsergebnisse sind öffentlich zugänglich für weitere Forschungen.