HOnnotate: Eine Methode zur 3D-Annotation von Hand- und Objekt-Posen
Wir schlagen eine Methode vor, um Bilder einer Hand, die ein Objekt manipuliert, mit den 3D-Posen sowohl der Hand als auch des Objekts zu annotieren, und präsentieren dazu einen mit dieser Methode erstellten Datensatz. Unser Motivation ist das aktuelle Fehlen von annotierten realen Bildern für dieses Problem, da die Schätzung der 3D-Posen aufgrund der gegenseitigen Verdeckungen zwischen Hand und Objekt sehr herausfordernd ist. Um dieser Herausforderung zu begegnen, erfassen wir Sequenzen mit einer oder mehreren RGB-D-Kameras und optimieren die 3D-Posen von Hand und Objekt gleichzeitig über alle Frames hinweg. Diese Methode ermöglicht es uns, trotz großer gegenseitiger Verdeckungen jede Frame automatisch mit genauen Schätzungen der Posen zu annotieren. Mit dieser Methode haben wir HO-3D erstellt, den ersten markerlosen Datensatz von Farbbildern mit 3D-Annotierungen sowohl für die Hand als auch das Objekt. Derzeit besteht dieser Datensatz aus 77.558 Frames, 68 Sequenzen, 10 Personen und 10 Objekten. Unter Verwendung unseres Datensatzes entwickeln wir eine Methode basierend auf einzelnen RGB-Bildern, um die Handpose bei schwerwiegenden Verdeckungen während der Interaktion mit Objekten vorherzusagen, und zeigen, dass sie sich auf Objekte verallgemeinert, die nicht im Datensatz enthalten sind.