HyperAIHyperAI
vor 18 Tagen

3D Human Pose Estimation mit spatio-temporalem Criss-Cross Attention

{Ting Yao, Richang Hong, Yanbin Hao, Zhaofan Qiu, Zhenhua Tang}
3D Human Pose Estimation mit spatio-temporalem Criss-Cross Attention
Abstract

Kürzlich haben transformerbasierte Ansätze erheblichen Erfolg bei der 3D-Gestenanalyse erzielt. Dennoch führt die Berechnung der Gelenk-zu-Gelenk-Affinitätsmatrix zu einer quadratischen Zunahme der Rechenkosten mit steigender Anzahl an Gelenken. Dieser Nachteil verschärft sich besonders bei der Gestenanalyse in Videosequenzen, da hier räumlich-zeitliche Korrelationen über die gesamte Sequenz hinweg erforderlich sind. In diesem Artikel lösen wir dieses Problem, indem wir die Lernung von Korrelationen in räumliche und zeitliche Komponenten zerlegen, und stellen einen neuen Spatio-Temporalen Criss-Cross-Attention-(STC)-Block vor. Technisch betrachtet teilt STC zunächst seine Eingabedaten gleichmäßig entlang der Kanaldimension in zwei Teile auf, wobei jeweils räumliche und zeitliche Aufmerksamkeit auf den beiden Teilen separat angewendet werden. Anschließend modelliert STC die Wechselwirkungen zwischen Gelenken innerhalb derselben Frame und Gelenken entlang derselben Trajektorie gleichzeitig, indem es die Ausgaben der Aufmerksamkeitslayer verketten. Auf dieser Grundlage entwickeln wir STCFormer durch Stapeln mehrerer STC-Blöcke und integrieren zusätzlich eine neue strukturverbesserte Positionsembedding-(SPE)-Funktion, um die anatomische Struktur des menschlichen Körpers zu berücksichtigen. Die Embedding-Funktion besteht aus zwei Komponenten: einer räumlich-zeitlichen Faltung um benachbarte Gelenke zur Erfassung lokaler Strukturen sowie einer teilbewussten Embedding-Komponente, die anzeigt, welchem Körperteil jedes Gelenk zugeordnet ist. Umfangreiche Experimente wurden auf den Benchmarks Human3.6M und MPI-INF-3DHP durchgeführt, wobei STCFormer gegenüber bestehenden state-of-the-art-Verfahren überlegene Ergebnisse erzielt. Besonders hervorzuheben ist, dass STCFormer die bislang beste veröffentlichte Leistung erreicht: 40,5 mm P1-Fehler auf dem anspruchsvollen Human3.6M-Datensatz.