Contextual Instance Decoupling für robuste Multi-Person-Pose-Schätzung

Überfüllte Szenen machen es schwierig, Personen voneinander zu unterscheiden und deren Pose-Schlüsselpunkte zu lokalisieren. In diesem Artikel wird das Contextual Instance Decoupling (CID) vorgestellt, ein neuer Ansatz für die Mehrperson-Pose-Schätzung. Im Gegensatz zu herkömmlichen Methoden, die auf Personen-Boxen zur räumlichen Unterscheidung zurückgreifen, entkoppelt CID Personen in einem Bild in mehrere instanzbewusste Merkmalskarten. Jede dieser Merkmalskarten wird anschließend spezifisch zur Schätzung der Schlüsselpunkte einer einzelnen Person verwendet. Im Vergleich zur Box-Detektion ist CID differenzierbar und robuster gegenüber Detektionsfehlern. Die Entkopplung der Personen in separate Merkmalskarten ermöglicht es, Ablenkungen durch andere Personen zu isolieren und Kontextinformationen auf Skalen zu nutzen, die größer als die Größe der Bounding Boxes sind. Experimente zeigen, dass CID gegenüber früheren Pipelines für die Mehrperson-Pose-Schätzung sowohl in Genauigkeit als auch in Effizienz bei Benchmark-Aufgaben in überfüllten Szenen übertrifft. Beispielsweise erreicht CID eine AP von 71,3 % auf CrowdPose – dies übertrifft die jüngste Ein-Phase-Methode DEKR um 5,6 %, CenterAttention (Bottom-up) um 3,7 % und JC-SPPE (Top-down) um 5,3 %. Dieser Vorteil bleibt auch auf dem allgemein verwendeten COCO-Benchmark erhalten.