HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptiver Multi-View- und Temporal-Fusion-Transformer für die 3D-Menschenpose-Schätzung

Hui Shuai Lele Wu Qingshan Liu

Zusammenfassung

Diese Arbeit präsentiert einen einheitlichen Rahmen namens Multi-view and Temporal Fusing Transformer (MTF-Transformer), um adaptiv unterschiedliche Anzahlen von Ansichten und Video-Längen ohne Kamerakalibrierung in der 3D-Gestenerkennung (3D Human Pose Estimation, HPE) zu bewältigen. Der Ansatz besteht aus drei Komponenten: einem Feature Extractor, einem Multi-view Fusing Transformer (MFT) und einem Temporal Fusing Transformer (TFT). Der Feature Extractor schätzt 2D-Gesten aus jedem Einzelbild und fusions die Vorhersagen basierend auf deren Konfidenz. Er liefert pose-orientierte Merkmalsdarstellungen und sorgt dafür, dass die nachfolgenden Module rechenleicht bleiben. Der MFT fusions Merkmale aus einer variablen Anzahl von Ansichten mittels eines neuartigen Relative-Attention-Blocks. Er misst adaptiv die impliziten relativen Beziehungen zwischen jeweils zwei Ansichten und rekonstruiert informativere Merkmale. Der TFT aggregiert die Merkmale der gesamten Sequenz und prädiziert die 3D-Gesten mittels eines Transformers. Er behandelt adaptiv Videos beliebiger Länge und nutzt die zeitliche Information vollständig aus. Die Integration von Transformers ermöglicht es unserem Modell, räumliche Geometrien besser zu lernen und robust gegenüber unterschiedlichen Anwendungsszenarien zu bleiben. Wir präsentieren quantitative und qualitative Ergebnisse auf den Datensätzen Human3.6M, TotalCapture und KTH Multiview Football II. Im Vergleich zu aktuellen State-of-the-Art-Methoden, die Kameraparameter verwenden, erzielt der MTF-Transformer wettbewerbsfähige Ergebnisse und zeigt eine hervorragende Generalisierungsfähigkeit auch bei dynamischen Aufnahmen mit einer beliebigen Anzahl bisher nicht gesehener Ansichten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Adaptiver Multi-View- und Temporal-Fusion-Transformer für die 3D-Menschenpose-Schätzung | Paper | HyperAI