vor 17 Tagen

Adaptiver Multi-View- und Temporal-Fusion-Transformer für die 3D-Menschenpose-Schätzung

Hui Shuai, Lele Wu, Qingshan Liu

Abstract

Diese Arbeit präsentiert einen einheitlichen Rahmen namens Multi-view and Temporal Fusing Transformer (MTF-Transformer), um adaptiv unterschiedliche Anzahlen von Ansichten und Video-Längen ohne Kamerakalibrierung in der 3D-Gestenerkennung (3D Human Pose Estimation, HPE) zu bewältigen. Der Ansatz besteht aus drei Komponenten: einem Feature Extractor, einem Multi-view Fusing Transformer (MFT) und einem Temporal Fusing Transformer (TFT). Der Feature Extractor schätzt 2D-Gesten aus jedem Einzelbild und fusions die Vorhersagen basierend auf deren Konfidenz. Er liefert pose-orientierte Merkmalsdarstellungen und sorgt dafür, dass die nachfolgenden Module rechenleicht bleiben. Der MFT fusions Merkmale aus einer variablen Anzahl von Ansichten mittels eines neuartigen Relative-Attention-Blocks. Er misst adaptiv die impliziten relativen Beziehungen zwischen jeweils zwei Ansichten und rekonstruiert informativere Merkmale. Der TFT aggregiert die Merkmale der gesamten Sequenz und prädiziert die 3D-Gesten mittels eines Transformers. Er behandelt adaptiv Videos beliebiger Länge und nutzt die zeitliche Information vollständig aus. Die Integration von Transformers ermöglicht es unserem Modell, räumliche Geometrien besser zu lernen und robust gegenüber unterschiedlichen Anwendungsszenarien zu bleiben. Wir präsentieren quantitative und qualitative Ergebnisse auf den Datensätzen Human3.6M, TotalCapture und KTH Multiview Football II. Im Vergleich zu aktuellen State-of-the-Art-Methoden, die Kameraparameter verwenden, erzielt der MTF-Transformer wettbewerbsfähige Ergebnisse und zeigt eine hervorragende Generalisierungsfähigkeit auch bei dynamischen Aufnahmen mit einer beliebigen Anzahl bisher nicht gesehener Ansichten.