DirectPose: Direkte end-to-end Mehrpersonen-Posenschätzung

Wir schlagen den ersten direkten End-to-End-Framework für die Mehrpersonen-Pose-Schätzung vor, der als DirectPose bezeichnet wird. Inspiriert von jüngsten anchor-free Objektdetektoren, die die beiden Ecken der Ziel-Bounding-Boxes direkt regressieren, prognostiziert der vorgeschlagene Ansatz direkt instanzbewusste Schlüsselpunkte für alle Instanzen aus einem rohen Eingabebild, wodurch der Bedarf an heuristischem Gruppieren in bottom-up-Methoden oder an Bounding-Box-Detektion und RoI-Operationen in top-down-Methoden entfällt. Außerdem stellen wir eine neuartige Keypoint Alignment (KPAlign)-Mechanismus vor, der die zentrale Schwierigkeit überwindet: die fehlende Ausrichtung zwischen den konvolutionellen Merkmalen und den Vorhersagen in diesem End-to-End-Frame. KPAlign verbessert die Leistung des Frameworks erheblich, während es dennoch end-to-end trainierbar bleibt. Mit lediglich einer postprozessierenden Nicht-Maximum-Suppression (NMS) kann unser vorgeschlagener Ansatz Mehrpersonen-Schlüsselpunkte entweder mit oder ohne Bounding-Boxes in einem einzigen Schritt detektieren. Experimente zeigen, dass das End-to-End-Paradigma sowohl in bottom-up- als auch in top-down-Methoden eine konkurrenzfähige oder sogar bessere Leistung als frühere starke Baselines erzielt. Wir hoffen, dass unser End-to-End-Ansatz eine neue Perspektive für die Aufgabe der menschlichen Pose-Schätzung eröffnet.