HyperAIHyperAI
vor 11 Tagen

Zur Steigerung der Einzelbild-3D-Menschenpose-Schätzung mittels monokularen Videos

{ Peilin Jiang, Fei Wang, Xuan Wang, Zhi Li}
Zur Steigerung der Einzelbild-3D-Menschenpose-Schätzung mittels monokularen Videos
Abstract

Die Voraussetzung für die Schulung eines präzisen Netzwerks zur 3D-Menschenpose-Schätzung ist die Verfügbarkeit einer großen Menge an reichlich annotierten Trainingsdaten. Dennoch ist die manuelle Erstellung von umfassenden und genauen Annotationen selbst bei nicht vollständig unmöglich, zeitaufwendig und langsam. In diesem Artikel schlagen wir vor, monochrome Videos zur Ergänzung des Trainingsdatensatzes für Aufgaben der Einzelbild-3D-Menschenpose-Schätzung zu nutzen. Zunächst wird ein Basismodell mit einer kleinen Menge an Annotationen trainiert. Durch Fixierung zuverlässiger Schätzungen, die das resultierende Modell liefert, sammelt unsere Methode automatisch Annotationen über den gesamten Videoverlauf, indem das Problem der 3D-Trajektorien-Vervollständigung gelöst wird. Anschließend wird das Basismodell mit den gesammelten Annotationen weiter trainiert, um neue Pose-Informationen zu erlernen. Wir evaluieren unsere Methode anhand der weit verbreiteten Datensätze Human3.6M und MPI-INF-3DHP. Wie die Experimente zeigen, gelingt es unserem Ansatz, bei lediglich einer kleinen Menge an Annotationen, das Modell erfolgreich dazu zu bringen, aus ungelabelten monokularen Videos neue Posen zu lernen und die Genauigkeit des Basismodells dabei um etwa 10 % zu steigern. Im Gegensatz zu früheren Ansätzen basiert unsere Methode weder auf Mehransichtbilddaten noch auf expliziten 2D-Keypoint-Annotationen.

Zur Steigerung der Einzelbild-3D-Menschenpose-Schätzung mittels monokularen Videos | Neueste Forschungsarbeiten | HyperAI