HyperAIHyperAI
vor 17 Tagen

FinePOSE: Feinabstimmung von Prompt-gesteuerten 3D-Human-Pose-Schätzungen mittels Diffusionsmodelle

Jinglin Xu, Yijie Guo, Yuxin Peng
FinePOSE: Feinabstimmung von Prompt-gesteuerten 3D-Human-Pose-Schätzungen mittels Diffusionsmodelle
Abstract

Die Aufgabe der 3D-Gesten-Schätzung (3D HPE) nutzt 2D-Bilder oder -Videos, um die Koordinaten menschlicher Gelenke im dreidimensionalen Raum vorherzusagen. Trotz neuerer Fortschritte in deep-learning-basierten Methoden ignorieren diese meist die Fähigkeit, zugängliche Textinformationen und naturgemäß plausiblen menschlichen Wissensbestand zu koppeln, wodurch wertvolle implizite Supervision verloren geht, die die 3D-HPE-Aufgabe leiten könnte. Zudem betrachten bisherige Ansätze diese Aufgabe häufig ausschließlich aus der Perspektive des gesamten menschlichen Körpers und vernachlässigen feinabgestimmte Anleitungen, die in verschiedenen Körperteilen verborgen liegen. Um dies zu beheben, präsentieren wir einen neuen, feinabgestimmten, promptgesteuerten Denoisierer auf Basis eines Diffusionsmodells für die 3D-HPE, namens \textbf{FinePOSE}. Er besteht aus drei zentralen Blöcken, die den Rückwärtsprozess des Diffusionsmodells verbessern: (1) Der Feinabgestimmte Teil-orientierte Prompt-Lernblock (FPP) erstellt feinabgestimmte, körperteil-orientierte Prompts durch die Koppelung zugänglicher Texte und naturgemäß plausibler Kenntnisse über Körperteile mit lernbaren Prompts, um implizite Anleitungen zu modellieren. (2) Der Feinabgestimmte Prompt-Gelenk-Kommunikationsblock (FPC) etabliert eine feinabgestimmte Kommunikation zwischen den gelernten, körperteil-orientierten Prompts und den Gelenkpositionen, um die Denoisingsqualität zu verbessern. (3) Der Prompt-gesteuerte Zeitstempel-Stilisierungsblock (PTS) integriert die gelernten Prompt-Embeddings mit zeitlichen Informationen im Zusammenhang mit der Rauschintensität, um eine adaptive Anpassung in jedem Denoisingschritt zu ermöglichen. Umfangreiche Experimente auf öffentlichen Datensätzen zur Einzelpersonen-3D-Gestensschätzung zeigen, dass FinePOSE state-of-the-art-Methoden übertrifft. Wir erweitern FinePOSE zudem auf die Schätzung mehrerer Personen. Die Erreichung eines durchschnittlichen MPJPE von 34,3 mm auf dem EgoHumans-Datensatz demonstriert das Potenzial von FinePOSE zur Bewältigung komplexer Szenarien mit mehreren Personen. Der Quellcode ist unter https://github.com/PKU-ICST-MIPL/FinePOSE_CVPR2024 verfügbar.