Zu einer unbeschränkten gemeinsamen Rekonstruktion von Hand und Objekt aus RGB-Videos

Unsere Arbeit zielt darauf ab, eine 3D-Rekonstruktion von Händen und manipulierten Objekten aus monokularen Videos zu erreichen. Die Rekonstruktion von Hand-Objekt-Manipulationen birgt ein großes Potenzial für die Robotik und das Lernen aus menschlichen Demonstrationen. Der überwachte Lernansatz für dieses Problem erfordert jedoch 3D-Supervision und ist auf eingeschränkte Laborbedingungen und Simulatoren beschränkt, für die 3D-Ground-Truth-Daten verfügbar sind. In diesem Artikel schlagen wir zunächst einen lernfreien Anpassungsansatz für die Hand-Objekt-Rekonstruktion vor, der nahtlos zweihandige Objektinteraktionen verarbeiten kann. Unsere Methode basiert auf Hinweisen, die mit gängigen Methoden zur Objekterkennung, Handhaltungsschätzung und Instanzsegmentierung gewonnen werden. Wir bewerten unseren Ansatz quantitativ und zeigen, dass er auf Datensätze mit unterschiedlichem Schwierigkeitsgrad angewendet werden kann, für die keine Trainingsdaten vorhanden sind.