MT-VAE: Lernen von Bewegungstransformationen zur Generierung multimodaler menschlicher Dynamiken

Langfristige menschliche Bewegungen können als eine Reihe von Bewegungsmodi dargestellt werden – Bewegungssequenzen, die kurzfristige zeitliche Dynamiken erfassen – mit Übergängen zwischen ihnen. Wir nutzen diese Struktur und stellen ein neues Modell namens Motion Transformation Variational Auto-Encoders (MT-VAE) zur Lernung der Generierung von Bewegungssequenzen vor. Unser Modell lernt gleichzeitig eine Merkmalskodierung für Bewegungsmodi (aus denen die Bewegungssequenz rekonstruiert werden kann) und eine MerkmalsTransformation, die den Übergang von einem Bewegungsmodus zum nächsten darstellt. Unser Modell ist in der Lage, aus der gleichen Eingabe mehrere verschiedene und plausible zukünftige Bewegungssequenzen zu generieren. Wir wenden unseren Ansatz sowohl auf Gesichtsbewegungen als auch auf vollen Körperbewegungen an und demonstrieren Anwendungen wie analogiebasierte Bewegungstransfer und Videosynthese.