Command Palette
Search for a command to run...
Poseur: Direkte menschliche Pose-Regression mit Transformers
Poseur: Direkte menschliche Pose-Regression mit Transformers
Weian Mao Yongtao Ge Chunhua Shen Zhi Tian Xinlong Wang Zhibin Wang Anton van den Hengel
Zusammenfassung
Wir schlagen einen direkten, regressionsbasierten Ansatz zur 2D-Menschenpose-Schätzung aus Einzelbildern vor. Wir formulieren das Problem als Sequenzvorhersageaufgabe, die wir mit einem Transformer-Netzwerk lösen. Dieses Netzwerk lernt direkt eine Regressionsabbildung von Bildern auf die Koordinaten der Schlüsselpunkte, ohne auf Zwischendarstellungen wie Heatmaps zurückzugreifen. Dieser Ansatz vermeidet viel der Komplexität, die mit heatmapbasierten Methoden verbunden ist. Um die Probleme der Merkmalsmisalignierung bei früheren regressionsbasierten Methoden zu überwinden, schlagen wir eine Aufmerksamkeitsmechanik vor, die adaptiv diejenigen Merkmale herausgreift, die am relevantesten für die Ziel-Schlüsselpunkte sind, wodurch die Genauigkeit erheblich gesteigert wird. Wichtig ist, dass unser Framework end-to-end differenzierbar ist und natürlicherweise die Abhängigkeiten zwischen den Schlüsselpunkten lernt. Experimente auf den beiden führenden Pose-Schätzungs-Datensätzen MS-COCO und MPII zeigen, dass unsere Methode die bisherigen State-of-the-Art-Methoden in der regressionsbasierten Pose-Schätzung deutlich übertreffen. Besonders hervorzuheben ist, dass es sich hierbei um den ersten regressionsbasierten Ansatz handelt, der im Vergleich zu den besten heatmapbasierten Methoden konkurrenzfähig ist.