HyperAIHyperAI

Command Palette

Search for a command to run...

Jointformer: Einframe-Lifting-Transformer mit Fehlerschätzung und Verfeinerung für die 3D-Mensch-Pose-Schätzung

C. Li J. Zhang

Zusammenfassung

Monokulare 3D-Pose-Schätztechnologien haben das Potenzial, die Verfügbarkeit von Bewegungsdaten des Menschen erheblich zu steigern. Die besten Modelle zur 2D-3D-Lifting aus einzelnen Bildern verwenden in der Regel Graph-Konvolutionssnetze (GCNs), die manuelle Eingaben benötigen, um die Beziehungen zwischen verschiedenen Körperteilen zu definieren. Wir schlagen einen neuen Ansatz auf Basis von Transformers vor, der den allgemeineren Selbst-Aufmerksamkeitsmechanismus verwendet, um diese Beziehungen innerhalb einer Token-Sequenz, die die Gelenke repräsentiert, zu lernen. Wir stellen fest, dass die Verwendung von Zwischensupervision sowie Residualverbindungen zwischen den gestapelten Encodern die Leistung verbessert. Darüber hinaus schlagen wir vor, dass die Fehlerprädiktion als Teil eines Multi-Task-Learning-Frameworks die Leistung durch eine Anpassung an das Konfidenzniveau des Netzes erhöht. Um zu zeigen, dass jeder unserer Beiträge die Leistung steigert, führen wir umfangreiche Ablationsstudien durch. Zudem demonstrieren wir, dass unser Ansatz den aktuellen Stand der Technik bei der 3D-Pose-Schätzung aus einzelnen Bildern deutlich übertrifft. Unser Code und unsere trainierten Modelle sind öffentlich auf Github verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp