3D-Rekonstruktion von Händen mit Transformers

Wir präsentieren einen Ansatz zur 3D-Rekonstruktion von Händen aus monokularer Eingabe. Unser Ansatz zur Hand-Mesh-Rekonstruktion, HaMeR, basiert auf einer vollständig transformerbasierten Architektur und ermöglicht eine signifikant erhöhte Genauigkeit und Robustheit im Vergleich zu vorherigen Arbeiten. Der Schlüssel zum Erfolg von HaMeR liegt in der Skalierung sowohl der für das Training verwendeten Datenmenge als auch der Kapazität des tiefen neuronalen Netzes zur Handrekonstruktion. Für die Trainingsdaten kombinieren wir mehrere Datensätze, die 2D- oder 3D-Handannotierungen enthalten. Für das tiefe Modell nutzen wir eine großskalige Vision-Transformer-Architektur. Unser endgültiges Modell übertrifft die bisherigen Baselines konsistent auf gängigen Benchmarks für 3D-Handpose. Um die Wirkung unseres Entwurfs auch in nicht kontrollierten Umgebungen weiter zu evaluieren, annotieren wir bestehende „in-the-wild“-Datensätze mit 2D-Hand-Keypoint-Annotationen. Auf diesem neu erfassten Annotationssatz, HInt, demonstrieren wir erhebliche Verbesserungen gegenüber bestehenden Baselines. Den Quellcode, die Daten und die Modelle stellen wir auf der Projekt-Website bereit: https://geopavlakos.github.io/hamer/.