UDE: Ein einheitlicher Treibersystem für die Generierung menschlicher Bewegung

Die Generierung steuerbarer und editierbarer menschlicher Bewegungssequenzen stellt eine zentrale Herausforderung bei der Erzeugung von 3D-Avataren dar. Die Erstellung und Animation menschlicher Bewegungen war lange Zeit sehr arbeitsintensiv, bis kürzlich lernbasierte Ansätze entwickelt und angewendet wurden. Diese Ansätze sind jedoch weiterhin auf spezifische Aufgaben oder Modalitäten beschränkt \cite{ahuja2019language2pose}\cite{ghosh2021synthesis}\cite{ferreira2021learning}\cite{li2021ai}. In diesem Paper stellen wir „UDE“ vor, den ersten einheitlichen Treiber-Engine, der die Generierung menschlicher Bewegungssequenzen aus natürlicher Sprache oder Audiosignalen ermöglicht (siehe Abb.~\ref{fig:teaser}). Konkret besteht UDE aus folgenden Schlüsselkomponenten: 1) einem Bewegungsquantisierungsmodul basierend auf VQVAE, das kontinuierliche Bewegungssequenzen als diskrete Latent-Codes darstellt \cite{van2017neural}, 2) einem modalitätsunabhängigen Transformer-Encoder \cite{vaswani2017attention}, der lernt, modalitätsbezogene Steuersignale in einen gemeinsamen Raum abzubilden, 3) einem einheitlichen Token-Transformer-Netzwerk (ähnlich GPT \cite{radford2019language}), das die Indizes der quantisierten Latent-Codes autoregressiv vorhersagt, und 4) einem Diffusions-Bewegungs-Decoder, der die Bewegungstoken als Eingabe erhält und diese in Bewegungssequenzen mit hoher Vielfalt decodiert. Wir evaluieren unsere Methode anhand der Benchmarks HumanML3D \cite{Guo_2022_CVPR} und AIST++ \cite{li2021learn}, und die experimentellen Ergebnisse zeigen, dass unsere Methode eine state-of-the-art-Leistung erzielt. Projekt-Website: \url{https://github.com/zixiangzhou916/UDE/}