HyperAIHyperAI
vor 2 Monaten

ConvFormer: Parameterreduzierung in Transformer-Modellen für die 3D-Mensch-Pose-Schätzung durch die Nutzung dynamischer mehrköpfiger Faltungs-Aufmerksamkeit

Diaz-Arias, Alec ; Shin, Dmitriy
ConvFormer: Parameterreduzierung in Transformer-Modellen für die 3D-Mensch-Pose-Schätzung durch die Nutzung dynamischer mehrköpfiger Faltungs-Aufmerksamkeit
Abstract

Kürzlich haben vollständig transformer-basierte Architekturen die bisherige Standardarchitektur mit Faltungsschichten (Convolutional Architecture) für die Aufgabe der 3D-Menschlichen-Pose-Schätzung abgelöst. In dieser Arbeit schlagen wir \textbf{\textit{ConvFormer}} vor, einen neuen konvolutionellen Transformer, der eine neuartige \textbf{\textit{dynamische mehrköpfige konvolutionelle Selbst-Attention}}-Mechanismus für die monokulare 3D-Menschliche-Pose-Schätzung nutzt. Wir haben einen räumlichen und zeitlichen konvolutionellen Transformer entwickelt, um die Beziehungen zwischen den menschlichen Gelenken sowohl innerhalb einzelner Frames als auch global über die Bewegungssequenz hinweg umfassend zu modellieren. Darüber hinaus führen wir das Konzept des \textbf{\textit{zeitlichen Gelenkprofils (temporal joints profile)}} ein, das in unserem zeitlichen ConvFormer sofort vollständige zeitliche Informationen für eine lokale Nachbarschaft von Gelenkmerkmalen fusioniert. Unsere Methode wurde quantitativ und qualitativ auf drei gängigen Benchmark-Datensätzen validiert: Human3.6M, MPI-INF-3DHP und HumanEva. Um den optimalen Satz von Hyperparametern zu identifizieren, wurden umfangreiche Experimente durchgeführt. Diese Experimente zeigten, dass wir im Vergleich zu früheren Transformer-Modellen eine \textbf{signifikante Reduktion der Parameter} erreicht haben, während gleichzeitig den State-of-the-Art (SOTA) oder nahezu SOTA auf allen drei Datensätzen erzielen konnten. Zudem erreichten wir SOTA für Protokoll III auf H36M sowohl bei GT- als auch bei CPN-Eingaben zur Detektion. Schließlich erzielten wir SOTA in allen drei Metriken des MPI-INF-3DHP-Datensatzes und bei allen drei Probanden des HumanEva-Datensatzes unter Protokoll II.