vor 2 Monaten

H2O: Zwei Hände manipulieren Objekte für die Erste-Person-Interaktionserkennung

Kwon, Taein ; Tekin, Bugra ; Stuhmer, Jan ; Bogo, Federica ; Pollefeys, Marc

Abstract

Wir präsentieren ein umfassendes Framework zur Erkennung egozentrischer Interaktionen unter Verwendung von markerfreien 3D-Annotierungen zweier Hände, die Objekte manipulieren. Zu diesem Zweck schlagen wir eine Methode vor, um einen vereinten Datensatz für die Erkennung egozentrischer 3D-Interaktionen zu erstellen. Unsere Methode erzeugt Annotierungen der 3D-Haltung von zwei Händen und der 6D-Haltung der manipulierten Objekte, zusammen mit ihren Interaktionslabels für jeden Frame. Unser Datensatz, genannt H2O (2 Hände und Objekte), bietet synchronisierte multiview RGB-D-Bilder, Interaktionslabels, Objektklassen, Ground-Truth-3D-Haltungen für linke und rechte Hand, 6D-Objekt-Haltungen, Ground-Truth-Kamera-Haltungen, Objektmodelle und Szenepunktwolken. Nach unserem Wissen ist dies das erste Benchmarking-Tool, das die Untersuchung von ersten Personen-Aktionen ermöglicht, indem es die Haltung beider Hände berücksichtigt, die Objekte manipulieren, und ein bislang unbekanntes Detailniveau für die Erkennung egozentrischer 3D-Interaktionen bietet. Wir schlagen zudem eine Methode vor, um Interaktionsklassen durch Schätzung der 3D-Haltung von zwei Händen und der 6D-Haltung der manipulierten Objekte aus RGB-Bildern gemeinsam vorherzusagen. Unsere Methode modelliert sowohl interne als auch externe Abhängigkeiten zwischen beiden Händen und den Objekten, indem sie die Topologie eines Graph Convolutional Networks lernt, das Interaktionen vorhersagt. Wir zeigen, dass unsere Methode durch diesen Datensatz eine starke Baseline für die gemeinsame Schätzung von Hand-Objekt-Pose aufbaut und den Stand der Technik in Bezug auf die Erkennung von ersten Personen-Interaktionen erreicht.