H2ONet: Hand-Occlusion- und Orientation-aware Network für die Echtzeit-3D-Hand-Mesh-Rekonstruktion

Die Echtzeit-3D-Handmesh-Rekonstruktion ist herausfordernd, insbesondere wenn die Hand ein Objekt hält. Im Gegensatz zu früheren Methoden entwickeln wir H2ONet, um nicht verdeckte Informationen aus mehreren Frames vollständig auszunutzen, um die Qualität der Rekonstruktion zu verbessern. Zunächst zerlegen wir die Handmesh-Rekonstruktion in zwei Zweige: einen, der fingerlevel-Informationen aus nicht verdeckten Bereichen auswertet, und einen anderen, der die globale Handorientierung berücksichtigt, jeweils mit leichtgewichtigen Strukturen, um eine Echtzeit-Inferenz zu ermöglichen. Zweitens schlagen wir eine fingerlevel-orientierte, occlusion-berücksichtigende Merkmalsfusion vor, die die vorhergesagten fingerlevel-Informationen zur Verdecktheit als Leitfaden nutzt, um fingerlevel-Informationen über mehrere Zeitframes hinweg zu fusionieren. Darüber hinaus entwerfen wir eine handlevel-orientierte, occlusion-berücksichtigende Merkmalsfusion, um nicht verdeckte Informationen aus benachbarten Zeitframes zu erfassen. Wir führen Experimente auf den Datensätzen Dex-YCB und HO3D-v2 durch, die anspruchsvolle Fälle von Hand-Objekt-Verdeckung enthalten, und zeigen, dass H2ONet in Echtzeit arbeiten kann und sowohl in Bezug auf die Genauigkeit der Handmesh als auch der Pose die derzeit beste Leistung erzielt. Der Quellcode wird auf GitHub veröffentlicht.