HyperAIHyperAI
vor 2 Monaten

MaskHand: Generatives Maskiertes Modellierung für robuste Handgitterrekonstruktion im Freien

Saleem, Muhammad Usama ; Pinyoanuntapong, Ekkasit ; Patel, Mayur Jagdishbhai ; Xue, Hongfei ; Helmy, Ahmed ; Das, Srijan ; Wang, Pu
MaskHand: Generatives Maskiertes Modellierung für robuste Handgitterrekonstruktion im Freien
Abstract

Die Rekonstruktion eines 3D-Handgitters aus einem einzelnen RGB-Bild ist aufgrund komplexer Artikulationen, Selbstverdeckungen und Tiefenunsicherheiten herausfordernd. Traditionelle diskriminative Methoden, die eine deterministische Abbildung von einem 2D-Bild zu einem einzigen 3D-Gitter lernen, geraten oft angesichts der inhärenten Unsicherheiten bei der 2D-zu-3D-Abbildung ins Stocken. Um dieser Herausforderung gerecht zu werden, schlagen wir MaskHand vor, ein neues generatives Maskierungsmodell zur Handgitter-Rekonstruktion, das plausible 3D-Handgitter durch Lernen und Stichprobenziehung aus der Wahrscheinlichkeitsverteilung des unsicheren 2D-zu-3D-Abbildungsvorgangs synthetisiert. MaskHand besteht aus zwei wesentlichen Komponenten: (1) VQ-MANO, das 3D-Handartikulationen als diskrete Pose-Tokens in einem latenten Raum kodiert, und (2) einem kontextgesteuerten maskierten Transformer, der zufällig Pose-Tokens maskiert und ihre gemeinsame Verteilung unter Berücksichtigung einer beschädigten Token-Sequenz, des Bildkontexts und 2D-Pose-Hinweisen lernt. Diese gelernte Verteilung ermöglicht es während der Inferenz, mit Hilfe von Vertrauenswerten Stichproben zu ziehen, wodurch Gitterrekonstruktionen mit geringer Unsicherheit und hoher Präzision erzeugt werden. Ausführliche Evaluierungen an Benchmark- und Realwelt-Datensätzen zeigen, dass MaskHand den Stand der Technik in Bezug auf Genauigkeit, Robustheit und Realismus bei der 3D-Handgitter-Rekonstruktion erreicht. Projektwebsite: https://m-usamasaleem.github.io/publication/MaskHand/MaskHand.html.