HyperAIHyperAI
vor 17 Tagen

MHFormer: Multi-Hypothesis Transformer für die 3D-Gesten-Schätzung

Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, Luc Van Gool
MHFormer: Multi-Hypothesis Transformer für die 3D-Gesten-Schätzung
Abstract

Die Schätzung von 3D-Gesten aus monokularen Videos ist aufgrund von Tiefenambiguität und Selbstverdeckung eine anspruchsvolle Aufgabe. Die meisten bestehenden Ansätze versuchen, beide Probleme durch Ausnutzung räumlicher und zeitlicher Beziehungen zu lösen. Allerdings ignorieren diese Ansätze die Tatsache, dass es sich um ein inverses Problem handelt, bei dem mehrere plausibele Lösungen (d. h. Hypothesen) existieren. Um diese Einschränkung zu überwinden, schlagen wir einen Multi-Hypothesis Transformer (MHFormer) vor, der räumlich-zeitliche Darstellungen mehrerer plausibler Gestenhypothesen lernt. Um die Abhängigkeiten zwischen mehreren Hypothesen effektiv zu modellieren und starke Beziehungen zwischen den Hypothesenmerkmalen aufzubauen, wird die Aufgabe in drei Stufen zerlegt: (i) Generierung mehrerer initialer Hypothesendarstellungen; (ii) Modellierung der Selbst-Hypothesen-Kommunikation, Verschmelzung mehrerer Hypothesen zu einer einzigen konvergierten Darstellung und anschließende Aufteilung dieser in mehrere divergierende Hypothesen; (iii) Lernen der Kreuz-Hypothesen-Kommunikation und Aggregation der mehrfachen Hypothesenmerkmale zur Synthese der endgültigen 3D-Gesten. Durch diese Prozesse wird die endgültige Darstellung verbessert, und die synthetisierte Gestenbewegung ist erheblich genauer. Umfangreiche Experimente zeigen, dass der MHFormer auf zwei anspruchsvollen Datensätzen – Human3.6M und MPI-INF-3DHP – Ergebnisse auf dem Stand der Technik erzielt. Ohne zusätzliche Optimierungen übertrifft seine Leistung das bisher beste Ergebnis auf Human3.6M um einen erheblichen Abstand von 3 Prozentpunkten. Der Quellcode und die Modelle sind unter \url{https://github.com/Vegetebird/MHFormer} verfügbar.