Ausführung Ihrer Befehle über Motion Diffusion im latente Raum

Wir untersuchen eine herausfordernde Aufgabe, die bedingte Generierung menschlicher Bewegungsabläufe, bei der plausible Bewegungssequenzen anhand verschiedener bedingter Eingaben – beispielsweise Aktionsklassen oder textuelle Beschreibungen – erzeugt werden. Da menschliche Bewegungen äußerst vielfältig sind und eine deutlich andere Verteilung aufweisen als die bedingten Modalitäten, wie natürlichsprachliche Textbeschreibungen, ist es schwierig, eine probabilistische Abbildung von der gewünschten bedingten Modalität auf Bewegungssequenzen zu lernen. Zudem können die Rohdaten aus Bewegungsaufnahmesystemen sequenziell redundant sein und Rauschen enthalten; die direkte Modellierung der gemeinsamen Verteilung über Rohbewegungssequenzen und bedingte Modalitäten erfordert einen hohen Rechenaufwand und kann Artefakte verursachen, die durch das aufgenommene Rauschen hervorgerufen werden. Um eine bessere Repräsentation verschiedener menschlicher Bewegungsabläufe zu erlernen, entwerfen wir zunächst einen leistungsfähigen Variationalen Autoencoder (VAE), der eine repräsentative und niederdimensionale latente Kodierung für eine menschliche Bewegungssequenz erzeugt. Anstatt eine Diffusionsmodellierung direkt zwischen den Rohbewegungssequenzen und den bedingten Eingaben durchzuführen, führen wir den Diffusionsprozess im Bewegungs-Latentraum durch. Unser vorgeschlagenes Motion Latent-based Diffusion-Modell (MLD) kann lebendige Bewegungssequenzen erzeugen, die den gegebenen bedingten Eingaben entsprechen, und den Rechenaufwand sowohl im Trainings- als auch im Inferenzstadium erheblich reduzieren. Umfangreiche Experimente auf verschiedenen Aufgaben der menschlichen Bewegungsgenerierung zeigen, dass unser MLD gegenüber den aktuellen State-of-the-Art-Methoden erhebliche Verbesserungen erzielt, und dabei die Geschwindigkeit gegenüber früheren Diffusionsmodellen auf Rohbewegungssequenzen um zwei Größenordnungen steigert.