HyperAIHyperAI
vor 2 Monaten

Jointformer: Einframe-Lifting-Transformer mit Fehlerschätzung und Verfeinerung für die 3D-Mensch-Pose-Schätzung

Lutz, Sebastian ; Blythman, Richard ; Ghosal, Koustav ; Moynihan, Matthew ; Simms, Ciaran ; Smolic, Aljosa
Jointformer: Einframe-Lifting-Transformer mit Fehlerschätzung und Verfeinerung für die 3D-Mensch-Pose-Schätzung
Abstract

Monokulare 3D-Pose-Schätztechnologien haben das Potenzial, die Verfügbarkeit von Bewegungsdaten des Menschen erheblich zu steigern. Die besten Modelle zur 2D-3D-Lifting aus einzelnen Bildern verwenden in der Regel Graph-Konvolutionssnetze (GCNs), die manuelle Eingaben benötigen, um die Beziehungen zwischen verschiedenen Körperteilen zu definieren. Wir schlagen einen neuen Ansatz auf Basis von Transformers vor, der den allgemeineren Selbst-Aufmerksamkeitsmechanismus verwendet, um diese Beziehungen innerhalb einer Token-Sequenz, die die Gelenke repräsentiert, zu lernen. Wir stellen fest, dass die Verwendung von Zwischensupervision sowie Residualverbindungen zwischen den gestapelten Encodern die Leistung verbessert. Darüber hinaus schlagen wir vor, dass die Fehlerprädiktion als Teil eines Multi-Task-Learning-Frameworks die Leistung durch eine Anpassung an das Konfidenzniveau des Netzes erhöht. Um zu zeigen, dass jeder unserer Beiträge die Leistung steigert, führen wir umfangreiche Ablationsstudien durch. Zudem demonstrieren wir, dass unser Ansatz den aktuellen Stand der Technik bei der 3D-Pose-Schätzung aus einzelnen Bildern deutlich übertrifft. Unser Code und unsere trainierten Modelle sind öffentlich auf Github verfügbar.