Zur genauen Ausrichtung bei der Echtzeit-3D-Hand-Mesh-Rekonstruktion

Die 3D-Rekonstruktion von Hand-Meshes aus RGB-Bildern ermöglicht zahlreiche Anwendungen, darunter erweiterte Realität (Augmented Reality, AR). Dafür sind jedoch nicht nur Echtzeit-Leistung und präzise Schätzung der Handpose und -form, sondern auch eine plausibel abgestimmte Mesh-Bild-Alignment erforderlich. Obwohl bereits vielversprechende Ansätze existieren, ist die gleichzeitige Erfüllung aller drei Anforderungen äußerst herausfordernd. In diesem Artikel präsentieren wir einen neuartigen Pipeline-Ansatz, der die Aufgabe der Hand-Mesh-Rekonstruktion in drei Stufen entkoppelt: eine Gelenk-Stufe zur Vorhersage von Handgelenken und Segmentierung; eine Mesh-Stufe zur Vorhersage eines groben Hand-Meshes; sowie eine Verfeinerungs-Stufe, die das Mesh mittels eines Offset-Meshes zur Verbesserung der Mesh-Bild-Alignment feinjustiert. Durch sorgfältige Gestaltung der Netzwerkarchitektur und der Verlustfunktionen erreichen wir eine hochwertige, finger-genau abgestimmte Mesh-Bild-Alignment und ermöglichen gleichzeitig Echtzeit-Vorhersagen durch eine kohärente Modellintegration. Umfangreiche quantitative und qualitative Ergebnisse auf Standard-Datensätzen zeigen, dass unsere Methode die Qualität der Rekonstruktion im Vergleich zu aktuellen State-of-the-Art-Verfahren hinsichtlich Hand-Mesh/Pose-Genauigkeit und Hand-Bild-Alignment übertrifft. Abschließend demonstrieren wir zudem mehrere Szenarien für Echtzeit-AR-Anwendungen.