vor 11 Tagen

AttT2M: Textgesteuerte Generierung menschlicher Bewegung mit Mechanismus für mehrperspektivische Aufmerksamkeit

Chongyang Zhong, Lei Hu, Zihao Zhang, Shihong Xia

Abstract

Die Generierung von 3D-Menschenbewegungen basierend auf textuellen Beschreibungen ist in den letzten Jahren ein zentrales Forschungsfeld geworden. Dabei müssen die generierten Bewegungen vielfältig, natürlich und der textuellen Beschreibung entsprechen. Aufgrund der komplexen raumzeitlichen Struktur menschlicher Bewegungen sowie der Schwierigkeit, die multimodale Beziehung zwischen Text und Bewegung zu lernen, bleibt die textgesteuerte Bewegungsgenerierung weiterhin eine herausfordernde Aufgabe. Um diese Probleme anzugehen, stellen wir \textbf{AttT2M} vor – einen zweistufigen Ansatz mit einem mehrperspektivischen Aufmerksamkeitsmechanismus: \textbf{Körperteil-Aufmerksamkeit} und \textbf{globale-lokale Bewegungs-Text-Aufmerksamkeit}. Ersterer betrachtet die Bewegungseingabe aus der Perspektive der Körperteile und integriert einen körperteilbasierten raumzeitlichen Encoder in VQ-VAE, um einen ausdrucksstarken diskreten Latentraum zu lernen. Letzterer stammt aus der multimodalen Perspektive und dient der Modellierung der Beziehungen zwischen Sätzen und Wörtern einerseits und Bewegungen andererseits auf Satz- und Wortebene. Die textgesteuerte Bewegung wird schließlich mit einem generativen Transformer erzeugt. Umfangreiche Experimente auf den Datensätzen HumanML3D und KIT-ML zeigen, dass unser Ansatz sowohl quantitativ als auch qualitativ die aktuellen State-of-the-Art-Methoden übertrifft und eine feinabgestimmte Synthese sowie die Fähigkeit zur Action-to-Motion-Generierung erreicht. Der Quellcode ist unter https://github.com/ZcyMonkey/AttT2M verfügbar.