Explizite Box-Erkennung vereint die end-to-end Mehrpersonen-Pose-Schätzung

Dieses Papier präsentiert ein neues End-to-End-Framework mit expliziter Box-Detektion für die Mehrpersonen-Pose-Schätzung, genannt ED-Pose, bei dem das kontextuelle Lernen zwischen menschlicher (globaler) und Keypoint-Level (lokalen) Informationen vereint wird. Im Gegensatz zu früheren One-Stage-Methoden betrachtet ED-Pose diese Aufgabe als zwei explizite Box-Detektionsprozesse mit einer vereinheitlichten Darstellung und Regressionsüberwachung. Zunächst führen wir einen Menschen-Detektions-Decodier von kodierten Tokens ein, um globale Merkmale zu extrahieren. Dies kann eine gute Initialisierung für den nachfolgenden Keypoint-Detektionsprozess bieten und den Trainingsprozess beschleunigen. Zweitens, um kontextuelle Informationen in der Nähe der Keypoints einzubeziehen, betrachten wir die Pose-Schätzung als ein Keypoint-Box-Detektionsproblem, um sowohl die Positionen als auch den Inhalt jeder Box zu lernen. Ein Mensch-zu-Keypoint-Detektions-Decodier verwendet eine interaktive Lernstrategie zwischen menschlichen und Keypoint-Merkmalsinformationen, um die Aggregation von globalen und lokalen Merkmalen weiter zu verbessern. Im Allgemeinen ist ED-Pose konzeptionell einfach, ohne Postverarbeitung oder dichte Heatmap-Überwachung. Es zeigt seine Effektivität und Effizienz im Vergleich zu Two-Stage- und One-Stage-Methoden. Bemerkenswerterweise erhöht die explizite Box-Detektion die Leistung der Pose-Schätzung um 4,5 AP auf COCO und 9,9 AP auf CrowdPose. Zum ersten Mal übertrifft ED-Pose als vollständiges End-to-End-Framework mit einem L1-Regressionsverlust die heatmap-basierten Top-down-Methoden unter gleicher Backbone-Architektur um 1,2 AP auf COCO und erreicht den aktuellen Stand der Technik mit 76,6 AP auf CrowdPose ohne zusätzliche Verfeinerungen. Der Quellcode ist unter https://github.com/IDEA-Research/ED-Pose verfügbar.