HyperAIHyperAI
vor 2 Monaten

GenHMR: Generative Human Mesh Recovery GenHMR: Generativer Wiedergewinnung von menschlichen Gittern

Saleem, Muhammad Usama ; Pinyoanuntapong, Ekkasit ; Wang, Pu ; Xue, Hongfei ; Das, Srijan ; Chen, Chen
GenHMR: Generative Human Mesh Recovery
GenHMR: Generativer Wiedergewinnung von menschlichen Gittern
Abstract

Die Wiederherstellung von menschlichen Meshes (HMR) ist in vielen Anwendungen der Computer Vision von entscheidender Bedeutung; sei es im Gesundheitswesen, in den Künsten oder im Unterhaltungssektor. Die HMR aus monoökularen Bildern wurde bisher hauptsächlich durch deterministische Methoden angegangen, die für ein gegebenes 2D-Bild eine einzelne Vorhersage erzeugen. Allerdings ist die HMR aus einem einzigen Bild aufgrund der Tiefenunsicherheit und Verdeckungen ein schlecht gestelltes Problem. Probabilistische Methoden haben versucht, dies durch die Generierung und Fusion mehrerer plausibler 3D-Rekonstruktionen zu lösen, jedoch war ihre Leistung oft hinter den deterministischen Ansätzen zurückgeblieben. In dieser Arbeit stellen wir GenHMR vor, einen neuen generativen Rahmen, der die monoökularer HMR als eine bildbedingte generative Aufgabe umformuliert und Unsicherheiten im Prozess der 2D-zu-3D-Abbildung explizit modelliert und reduziert. GenHMR besteht aus zwei wesentlichen Komponenten: (1) einem Pose-Tokenisierer zur Umwandlung von 3D-Menschpose in eine Folge diskreter Token im latenten Raum und (2) einem bildbedingten maskierten Transformer, um die Wahrscheinlichkeitsverteilungen der Pose-Token zu lernen, wobei diese Verteilungen sowohl auf dem Eingangsbild als auch auf einer zufällig maskierten Tokenfolge konditioniert sind. Während des Inferenzprozesses zieht das Modell Stichproben aus der gelernten bedingten Verteilung, um schrittweise hochsichere Pose-Token zu dekodieren und damit Unsicherheiten bei der 3D-Rekonstruktion zu verringern. Um die Rekonstruktion weiter zu verfeinern, wird eine 2D-Pose-gesteuerte Verfeinerungstechnik vorgeschlagen, mit der die dekodierten Pose-Token direkt im latenten Raum feinjustiert werden können. Dies zwingt das projizierte 3D-Körpernetzwerk zur Übereinstimmung mit den 2D-Posehinweisen. Experimente an Standard-Datensätzen zeigen, dass GenHMR erheblich besser abschneidet als state-of-the-art-Methoden (Stand der Technik). Die Projektwebsite kann unter https://m-usamasaleem.github.io/publication/GenHMR/GenHMR.html gefunden werden.