HyperAIHyperAI

Command Palette

Search for a command to run...

3D Human Pose Estimation mit spatio-temporalem Criss-Cross Attention

Ting Yao Richang Hong Yanbin Hao Zhaofan Qiu Zhenhua Tang

Zusammenfassung

Kürzlich haben transformerbasierte Ansätze erheblichen Erfolg bei der 3D-Gestenanalyse erzielt. Dennoch führt die Berechnung der Gelenk-zu-Gelenk-Affinitätsmatrix zu einer quadratischen Zunahme der Rechenkosten mit steigender Anzahl an Gelenken. Dieser Nachteil verschärft sich besonders bei der Gestenanalyse in Videosequenzen, da hier räumlich-zeitliche Korrelationen über die gesamte Sequenz hinweg erforderlich sind. In diesem Artikel lösen wir dieses Problem, indem wir die Lernung von Korrelationen in räumliche und zeitliche Komponenten zerlegen, und stellen einen neuen Spatio-Temporalen Criss-Cross-Attention-(STC)-Block vor. Technisch betrachtet teilt STC zunächst seine Eingabedaten gleichmäßig entlang der Kanaldimension in zwei Teile auf, wobei jeweils räumliche und zeitliche Aufmerksamkeit auf den beiden Teilen separat angewendet werden. Anschließend modelliert STC die Wechselwirkungen zwischen Gelenken innerhalb derselben Frame und Gelenken entlang derselben Trajektorie gleichzeitig, indem es die Ausgaben der Aufmerksamkeitslayer verketten. Auf dieser Grundlage entwickeln wir STCFormer durch Stapeln mehrerer STC-Blöcke und integrieren zusätzlich eine neue strukturverbesserte Positionsembedding-(SPE)-Funktion, um die anatomische Struktur des menschlichen Körpers zu berücksichtigen. Die Embedding-Funktion besteht aus zwei Komponenten: einer räumlich-zeitlichen Faltung um benachbarte Gelenke zur Erfassung lokaler Strukturen sowie einer teilbewussten Embedding-Komponente, die anzeigt, welchem Körperteil jedes Gelenk zugeordnet ist. Umfangreiche Experimente wurden auf den Benchmarks Human3.6M und MPI-INF-3DHP durchgeführt, wobei STCFormer gegenüber bestehenden state-of-the-art-Verfahren überlegene Ergebnisse erzielt. Besonders hervorzuheben ist, dass STCFormer die bislang beste veröffentlichte Leistung erreicht: 40,5 mm P1-Fehler auf dem anspruchsvollen Human3.6M-Datensatz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp