HyperAIHyperAI

Command Palette

Search for a command to run...

Deep Two-Stream Video Inference für die Schätzung von menschlicher Körperhaltung und -form

Ziwen Li Bo Xu Han Huang Cheng Lu Yandong Guo

Zusammenfassung

Mehrere video-basierte Algorithmen zur Schätzung von 3D-Gesten und -Formen wurden vorgeschlagen, um die zeitliche Inkonsistenz von Einzelbild-basierten Methoden zu überwinden. Dennoch bleibt eine stabile und genaue Rekonstruktion weiterhin herausfordernd. In diesem Artikel stellen wir einen neuen Ansatz namens Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation (DTS-VIBE) vor, um aus RGB-Videos 3D-Gesten und Mesh-Modelle von Menschen zu generieren. Wir formulieren die Aufgabe neu als ein Multimodalitätsproblem, bei dem RGB-Bilder und optische Flussdaten fusioniert werden, um eine zuverlässigere Schätzung zu ermöglichen. Um beide Sinnesmodalitäten (RGB oder optischer Fluss) optimal auszunutzen, trainieren wir ein zweistromiges zeitliches Netzwerk auf Basis von Transformer, um SMPL-Parameter vorherzusagen. Die ergänzende Modalität, der optische Fluss, trägt zur Aufrechterhaltung der zeitlichen Konsistenz bei, indem er Bewegungsinformationen zwischen zwei aufeinanderfolgenden Bildern nutzt. Der vorgeschlagene Algorithmus wird umfassend an den Datensätzen Human3.6 und 3DPW evaluiert. Die experimentellen Ergebnisse zeigen, dass er andere state-of-the-art-Methoden signifikant übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp