Eine einfache Grundlinie für effiziente Handgitterrekonstruktion

Die Schätzung von 3D-Handhaltungen hat in Bereichen wie Gestenerkennung und Mensch-Maschine-Interaktion eine breite Anwendung gefunden. Mit der Verbesserung der Leistung steigt auch die Komplexität der Systeme, was die vergleichende Analyse und praktische Implementierung dieser Methoden einschränken kann. In dieser Arbeit schlagen wir eine einfache, aber effektive Baseline vor, die nicht nur den aktuellen Stand der Technik (State-of-the-Art, SOTA) übertreffen kann, sondern auch rechnerisch effizient ist. Um diese Baseline zu etablieren, abstrahieren wir bestehende Arbeiten in zwei Komponenten: einen Token-Generator und einen Gitterregressor (Mesh Regressor), und untersuchen ihre Kernstrukturen. Eine Kernstruktur erfüllt in diesem Kontext intrinsische Funktionen, bringt signifikante Verbesserungen und erreicht ausgezeichnete Ergebnisse ohne unnötige Komplexitäten. Unser vorgeschlagener Ansatz ist unabhängig von Änderungen am Backbone und kann auf moderne Modelle angepasst werden. Unsere Methode übertrifft bestehende Lösungen und erzielt State-of-the-Art-Ergebnisse (SOTA) in mehreren Datensätzen. Im FreiHAND-Datensatz erreichte unser Ansatz ein PA-MPJPE von 5,7 mm und ein PA-MPVPE von 6,0 mm. Ebenso beobachteten wir im Dexycb-Datensatz ein PA-MPJPE von 5,5 mm und ein PA-MPVPE von 5,0 mm. Was die Geschwindigkeit betrifft, erreichte unsere Methode bis zu 33 Bildern pro Sekunde (fps) bei Verwendung des HRNet und bis zu 70 fps bei Verwendung des FastViT-MA36.