HOISDF: Einschränkung der 3D-Hand-Objekt-Pose-Schätzung durch globale signierte Distanzfelder

Menschliche Hände sind hoch differenziert und vielseitig im Umgang mit Objekten. Die gemeinsame Schätzung der 3D-Posen einer Hand und des von ihr manipulierten Objekts aus einer monoischen Kamera ist aufgrund häufiger Verdeckungen herausfordernd. Daher basieren existierende Methoden oft auf intermediären 3D-Formdarstellungen, um die Leistung zu verbessern. Diese Darstellungen sind in der Regel explizit, wie zum Beispiel 3D-Punktwolken oder -Netze, und liefern somit Informationen in der unmittelbaren Umgebung der intermediären Handpose-Schätzung. Um dieses Problem anzugehen, stellen wir HOISDF vor, ein Signed Distance Field (SDF)-gesteuertes Netzwerk zur Schätzung von Hand-Objekt-Posen, das Hand- und Objekt-SDFs gemeinsam nutzt, um eine globale, implizite Darstellung über das gesamte Rekonstruktionsvolumen zu bereitstellen. Insbesondere haben die SDFs dreifache Funktion: Sie versehen den visuellen Encoder mit impliziten Forminformationen, helfen bei der Kodierung von Hand-Objekt-Interaktionen und leiten die Pose-Regression von Hand und Objekt durch SDF-basierte Stichprobenziehung und durch Erweiterung der Merkmalsrepräsentationen. Wir zeigen, dass HOISDF den Stand der Technik in Benchmarks zur Schätzung von Hand-Objekt-Posen (DexYCB und HO3Dv2) erreicht. Der Quellcode ist unter https://github.com/amathislab/HOISDF verfügbar.