Deep Two-Stream Video Inference für die Schätzung von menschlicher Körperhaltung und -form

Mehrere video-basierte Algorithmen zur Schätzung von 3D-Gesten und -Formen wurden vorgeschlagen, um die zeitliche Inkonsistenz von Einzelbild-basierten Methoden zu überwinden. Dennoch bleibt eine stabile und genaue Rekonstruktion weiterhin herausfordernd. In diesem Artikel stellen wir einen neuen Ansatz namens Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation (DTS-VIBE) vor, um aus RGB-Videos 3D-Gesten und Mesh-Modelle von Menschen zu generieren. Wir formulieren die Aufgabe neu als ein Multimodalitätsproblem, bei dem RGB-Bilder und optische Flussdaten fusioniert werden, um eine zuverlässigere Schätzung zu ermöglichen. Um beide Sinnesmodalitäten (RGB oder optischer Fluss) optimal auszunutzen, trainieren wir ein zweistromiges zeitliches Netzwerk auf Basis von Transformer, um SMPL-Parameter vorherzusagen. Die ergänzende Modalität, der optische Fluss, trägt zur Aufrechterhaltung der zeitlichen Konsistenz bei, indem er Bewegungsinformationen zwischen zwei aufeinanderfolgenden Bildern nutzt. Der vorgeschlagene Algorithmus wird umfassend an den Datensätzen Human3.6 und 3DPW evaluiert. Die experimentellen Ergebnisse zeigen, dass er andere state-of-the-art-Methoden signifikant übertrifft.