HyperAIHyperAI
vor 2 Monaten

Generierung umfassender 3D-Bewegungen von Menschen aus Sprache

Yi, Hongwei ; Liang, Hualin ; Liu, Yifei ; Cao, Qiong ; Wen, Yandong ; Bolkart, Timo ; Tao, Dacheng ; Black, Michael J.
Generierung umfassender 3D-Bewegungen von Menschen aus Sprache
Abstract

Diese Arbeit befasst sich mit dem Problem der Generierung von 3D-ganzzähligen Körperbewegungen aus menschlicher Sprache. Gegeben ein Sprachaufnahme, synthetisieren wir realistische und vielfältige Sequenzen von 3D-Körperhaltungen, Handgesten und Gesichtsausdrücken. Um dies zu erreichen, erstellen wir zunächst einen hochwertigen Datensatz von 3D-ganzzähligen Körpermeshes mit synchroner Sprache. Anschließend definieren wir ein neues Framework zur Generierung von Sprache zu Bewegung, bei dem das Gesicht, der Körper und die Hände getrennt modelliert werden. Das getrennte Modellierungsansatz resultiert daraus, dass die Gesichtsartikulation stark mit der menschlichen Sprache korreliert, während Körperhaltungen und Handgesten weniger stark korrelieren. Insbesondere verwenden wir einen Autoencoder für Gesichtsbewegungen und einen kompositionellen vektorquantisierten variationellen Autoencoder (VQ-VAE) für die Bewegungen des Körpers und der Hände. Der kompositionelle VQ-VAE ist entscheidend für die Erzeugung vielfältiger Ergebnisse. Darüber hinaus schlagen wir ein kreuzbedingtes autoregressives Modell vor, das Körperhaltungen und Handgesten generiert und somit kohärente und realistische Bewegungen ermöglicht. Ausführliche Experimente und Nutzerstudien zeigen, dass unser vorgeschlagener Ansatz sowohl qualitativ als auch quantitativ den Stand der Technik erreicht. Unser neuartiger Datensatz und unser Code werden für Forschungszwecke unter https://talkshow.is.tue.mpg.de veröffentlicht.请注意,"ganzzähligen" 在这里可能是一个误译,因为“holistic”在德语中通常翻译为“ganzheitlich”。因此,正确的翻译应该是:Diese Arbeit befasst sich mit dem Problem der Generierung von 3D-ganzheitlichen Körperbewegungen aus menschlicher Sprache. Gegeben eine Sprachaufnahme, synthetisieren wir realistische und vielfältige Sequenzen von 3D-Körperhaltungen, Handgesten und Gesichtsausdrücken. Um dies zu erreichen, erstellen wir zunächst einen hochwertigen Datensatz von 3D-ganzheitlichen Körpermeshes mit synchroner Sprache. Anschließend definieren wir ein neues Framework zur Generierung von Sprache zu Bewegung, bei dem das Gesicht, der Körper und die Hände getrennt modelliert werden. Das getrennte Modellierungsansatz resultiert daraus, dass die Gesichtsartikulation stark mit der menschlichen Sprache korreliert, während Körperhaltungen und Handgesten weniger stark korrelieren. Insbesondere verwenden wir einen Autoencoder für Gesichtsbewegungen und einen kompositionellen vektorquantisierten variationellen Autoencoder (VQ-VAE) für die Bewegungen des Körpers und der Hände. Der kompositionelle VQ-VAE ist entscheidend für die Erzeugung vielfältiger Ergebnisse. Darüber hinaus schlagen wir ein kreuzbedingtes autoregressives Modell vor, das Körperhaltungen und Handgesten generiert und somit kohärente und realistische Bewegungen ermöglicht. Ausführliche Experimente und Nutzerstudien zeigen, dass unser vorgeschlagener Ansatz sowohl qualitativ als auch quantitativ den Stand der Technik erreicht. Unser neuartiger Datensatz und unser Code werden für Forschungszwecke unter https://talkshow.is.tue.mpg.de veröffentlicht.

Generierung umfassender 3D-Bewegungen von Menschen aus Sprache | Neueste Forschungsarbeiten | HyperAI