HyperAIHyperAI
vor 2 Monaten

Halbüberwachte 3D-Hand-Objekt-Pose-Schätzung mit zeitlichen Interaktionen

Liu, Shaowei ; Jiang, Hanwen ; Xu, Jiarui ; Liu, Sifei ; Wang, Xiaolong
Halbüberwachte 3D-Hand-Objekt-Pose-Schätzung mit zeitlichen Interaktionen
Abstract

Die Schätzung der 3D-Position von Händen und Objekten aus einem einzelnen Bild ist ein äußerst herausforderndes Problem: Hände und Objekte sind während Interaktionen oft selbst verdeckt, und die 3D-Annotierungen sind rar, da selbst Menschen die Ground-Truths aus einem einzelnen Bild nicht perfekt direkt beschriften können. Um diese Herausforderungen zu bewältigen, schlagen wir einen einheitlichen Rahmen für die Schätzung der 3D-Position von Händen und Objekten mit halbüberwachtem Lernen vor. Wir entwickeln ein gemeinsames Lernframework, in dem wir durch einen Transformer explizites kontextuelles Reasoning zwischen den Darstellungen von Hand und Objekt durchführen. Indem wir über die begrenzten 3D-Annotierungen in einem einzelnen Bild hinausgehen, nutzen wir die räumlich-zeitliche Konsistenz in umfangreichen Hand-Objekt-Videos als Nebenbedingung zur Generierung von Pseudolabels im halbüberwachten Lernen. Unsere Methode verbessert nicht nur die Schätzung der Handposition in anspruchsvollen realen Datensätzen, sondern führt auch zu erheblichen Verbesserungen bei der Objektpositionierung, die pro Instanz weniger Ground-Truths hat. Durch das Training mit umfangreichen diversen Videos generalisiert unser Modell auch besser über mehrere außerdomäne Datensätze hinweg. Projektseite und Code: https://stevenlsw.github.io/Semi-Hand-Object