Poseur: Direkte menschliche Pose-Regression mit Transformers

Wir schlagen einen direkten, regressionsbasierten Ansatz zur 2D-Menschenpose-Schätzung aus Einzelbildern vor. Wir formulieren das Problem als Sequenzvorhersageaufgabe, die wir mit einem Transformer-Netzwerk lösen. Dieses Netzwerk lernt direkt eine Regressionsabbildung von Bildern auf die Koordinaten der Schlüsselpunkte, ohne auf Zwischendarstellungen wie Heatmaps zurückzugreifen. Dieser Ansatz vermeidet viel der Komplexität, die mit heatmapbasierten Methoden verbunden ist. Um die Probleme der Merkmalsmisalignierung bei früheren regressionsbasierten Methoden zu überwinden, schlagen wir eine Aufmerksamkeitsmechanik vor, die adaptiv diejenigen Merkmale herausgreift, die am relevantesten für die Ziel-Schlüsselpunkte sind, wodurch die Genauigkeit erheblich gesteigert wird. Wichtig ist, dass unser Framework end-to-end differenzierbar ist und natürlicherweise die Abhängigkeiten zwischen den Schlüsselpunkten lernt. Experimente auf den beiden führenden Pose-Schätzungs-Datensätzen MS-COCO und MPII zeigen, dass unsere Methode die bisherigen State-of-the-Art-Methoden in der regressionsbasierten Pose-Schätzung deutlich übertreffen. Besonders hervorzuheben ist, dass es sich hierbei um den ersten regressionsbasierten Ansatz handelt, der im Vergleich zu den besten heatmapbasierten Methoden konkurrenzfähig ist.