A2J-Transformer: Anchor-to-Joint Transformer Netzwerk für die 3D-Handpose-Schätzung interagierender Hände aus einem einzigen RGB-Bild

Die Schätzung der 3D-Interaktion von Handpose aus einer einzigen RGB-Bildaufnahme stellt aufgrund schwerer Selbst- und Inter-Oklusionen zwischen den Händen, verwirrenden ähnlichen Erscheinungsmustern beider Hände, der schlecht gestellten Abbildung von 2D-Positionen auf 3D-Gelenke und weiterer Herausforderungen eine anspruchsvolle Aufgabe dar. Um diese Probleme anzugehen, schlagen wir vor, die derzeit fortschrittlichste tiefenbasierte Methode zur 3D-Einzelhandpose-Schätzung, A2J, auf den RGB-Domäne unter Bedingungen interagierender Hände zu erweitern. Unser zentrales Konzept besteht darin, A2J mit einer starken lokalen-globalen Aufmerksamkeit auszustatten, um sowohl feine lokale Details der interagierenden Hände als auch globale strukturelle Hinweise zwischen den Gelenken gemeinsam zu erfassen. Dazu wird A2J innerhalb eines Transformer-basierten nicht-lokalen Kodierungs- und Dekodierungsrahmens weiterentwickelt, wodurch A2J-Transformer entsteht. Dieses Modell weist gegenüber A2J drei Hauptvorteile auf: Erstens wird ein Selbst-Attention-Mechanismus über lokale Ankerpunkte eingeführt, um diese mit globaler räumlicher Kontextinformation auszustatten und so die Erfassung von Gelenkartikulationsmustern unter Ocluionen zu verbessern. Zweitens wird jeder Ankerpunkt als lernbarer Query mit adaptiver Merkmalschätzung betrachtet, anstatt eine identische lokale Repräsentation wie die anderen Ankerpunkte zu besitzen, was die Fähigkeit zur Musteranpassung erhöht. Drittens befinden sich die Ankerpunkte nun im 3D-Raum statt im 2D-Raum wie in A2J, was die Nutzung von 3D-Pose-Vorhersagen ermöglicht. Experimente auf dem anspruchsvollen InterHand 2.6M-Datensatz zeigen, dass A2J-Transformer eine state-of-the-art, modellfreie Leistung erzielt (Verbesserung um 3,38 mm MPJPE im Fall zweier Hände) und zudem eine starke Generalisierungsfähigkeit für die Tiefendomäne aufweist.