FreiHAND: Ein Datensatz für die markenlose Erfassung von Handpose und -form aus einzelnen RGB-Bildern

Die Schätzung der 3D-Handpose aus einzelnen RGB-Bildern ist ein hochgradig mehrdeutiges Problem, das von einem verzerrungsfreien Trainingsdatensatz abhängt. In diesem Artikel analysieren wir die Querdatenverallgemeinerung bei der Ausbildung auf bestehenden Datensätzen. Wir stellen fest, dass Ansätze auf den Datensätzen, auf denen sie trainiert wurden, gut abschneiden, jedoch nicht auf andere Datensätze oder in-the-wild-Szenarien verallgemeinern. Als Konsequenz stellen wir den ersten großskaligen, mehransichtigen Handdatensatz vor, der sowohl 3D-Handpose- als auch Handformannotierungen enthält. Zur Annotation dieses realweltbasierten Datensatzes schlagen wir einen iterativen, halbautomatisierten „Human-in-the-Loop“-Ansatz vor, der eine Hand-Fitting-Optimierung beinhaltet, um sowohl die 3D-Pose als auch die Form für jedes Beispiel abzuleiten. Wir zeigen, dass Methoden, die auf unserem Datensatz trainiert wurden, konsistent gute Leistungen bei der Bewertung auf anderen Datensätzen erzielen. Darüber hinaus ermöglicht der Datensatz die Ausbildung eines Netzwerks, das die vollständige artikulierte Handform aus einem einzigen RGB-Bild vorhersagt. Die Evaluierungsset kann als Benchmark für die Schätzung artikulierter Handformen dienen.