HyperAIHyperAI
vor 11 Tagen

Verfeinertes zeitliches pyramidal komprimierendes-und-verstärkendes Transformer-Modell für die 3D-Gesten-Schätzung

Hanbing Liu, Wangmeng Xiang, Jun-Yan He, Zhi-Qi Cheng, Bin Luo, Yifeng Geng, Xuansong Xie
Verfeinertes zeitliches pyramidal komprimierendes-und-verstärkendes Transformer-Modell für die 3D-Gesten-Schätzung
Abstract

Die präzise Schätzung der 3D-Gesten menschlicher Körper in Videosequenzen erfordert sowohl hohe Genauigkeit als auch eine gut strukturierte Architektur. Angesichts des Erfolgs von Transformers stellen wir den Refined Temporal Pyramidal Compression-and-Amplification (RTPCA)-Transformer vor. Durch Ausnutzung der zeitlichen Dimension erweitert RTPCA die intra-Block-Zeitmodellierung mittels seiner Temporal Pyramidal Compression-and-Amplification (TPCA)-Struktur und verfeinert die Inter-Block-Feature-Interaktion durch ein Cross-Layer Refinement (XLR)-Modul. Insbesondere nutzt der TPCA-Block ein zeitliches Pyramidenparadigma, um die Fähigkeit zur Repräsentation von Schlüsseln und Werten zu verstärken und räumliche Semantik nahtlos aus Bewegungssequenzen zu extrahieren. Diese TPCA-Blöcke werden mit dem XLR-Modul verbunden, das durch kontinuierlichen Austausch zwischen Anfragen, Schlüsseln und Werten eine reichhaltige semantische Repräsentation fördert. Diese Strategie integriert Informationen aus frühen Stadien in den aktuellen Informationsfluss und behebt typische Mängel in Detailgenauigkeit und Stabilität, die bei anderen Transformer-basierten Ansätzen auftreten. Wir belegen die Wirksamkeit von RTPCA durch state-of-the-art-Ergebnisse auf den Benchmarks Human3.6M, HumanEva-I und MPI-INF-3DHP bei minimaler rechnerischer Belastung. Der Quellcode ist unter https://github.com/hbing-l/RTPCA verfügbar.

Verfeinertes zeitliches pyramidal komprimierendes-und-verstärkendes Transformer-Modell für die 3D-Gesten-Schätzung | Neueste Forschungsarbeiten | HyperAI