Der Mittelpunkt der Aufmerksamkeit: Zentrum-Schlüsselpunkt-Gruppierung mittels Aufmerksamkeit für die Pose-Schätzung mehrerer Personen

Wir stellen CenterGroup vor, einen auf Aufmerksamkeit basierenden Ansatz zur Schätzung menschlicher Pose aus einer Menge identitätsunabhängiger Keypoints sowie Personenmittelpunktsvorhersagen in einem Bild. Unser Ansatz verwendet einen Transformer, um kontextbewusste Embeddings für alle detektierten Keypoints und Mittelpunkte zu erzeugen, und wendet anschließend Multi-Head-Aufmerksamkeit an, um Gelenke direkt ihren entsprechenden Personenmittelpunkten zuzuordnen. Während die meisten Bottom-Up-Methoden bei der Inferenz auf nicht-lernbare Clustering-Verfahren angewiesen sind, nutzt CenterGroup eine vollständig differenzierbare Aufmerksamkeitsmechanik, die gemeinsam mit unserem Keypoint-Detektor end-to-end trainiert wird. Dadurch erreicht unsere Methode eine state-of-the-art-Leistung mit bis zu 2,5-fach schnellerer Inferenzzeit im Vergleich zu konkurrierenden Bottom-Up-Methoden. Der Quellcode ist unter https://github.com/dvl-tum/center-group verfügbar.