DiverseMotion: Hin zu vielfältiger menschlicher Bewegungsgenerierung mittels diskreter Diffusion

Wir präsentieren DiverseMotion, einen neuen Ansatz zur Synthese hochwertiger menschlicher Bewegungen auf Basis textueller Beschreibungen, wobei die Vielfalt der Bewegungen bewahrt wird. Trotz der jüngsten Fortschritte in der textbasierten Generierung menschlicher Bewegungen setzen bestehende Methoden häufig stark auf die Anpassung an Trainingsbewegungen, was zu einer Einbuße an Aktionsvielfalt führt. Daher bleibt die Balance zwischen Bewegungsqualität und Vielfalt weiterhin eine ungelöste Herausforderung. Dieses Problem wird durch zwei zentrale Faktoren verschärft: 1) die geringe Vielfalt an Bewegungs-Beschreibungspaaren in bestehenden Benchmarks und 2) die einseitige und verzerrte semantische Interpretation der Texteingabe, die sich hauptsächlich auf das Verb konzentriert und feinere Unterschiede, die durch andere Wörter hervorgehoben werden, vernachlässigt. Um das erste Problem anzugehen, erstellen wir eine großskalige Wild Motion-Caption-Datenbank (WMC), um die begrenzte Aktionsvielfalt bestehender gut annotierter Datensätze zu erweitern und somit die Lernbarkeit vielfältiger Bewegungen durch eine breitere Palette von Aktionen zu ermöglichen. Hierzu trainieren wir ein Bewegungs-BLIP auf Basis eines vortrainierten Vision-Language-Modells und generieren automatisch vielfältige Bewegungsbeschreibungen für die gesammelten Bewegungssequenzen. Als Ergebnis erstellen wir schließlich eine Datensammlung mit 8.888 Bewegungen und 141.000 Textbeschreibungen. Um die Textanweisung umfassend zu verstehen, schlagen wir ein Hierarchisches Semantisches Aggregationsmodul (HSA) vor, um feinabgestimmte Semantik zu erfassen. Schließlich integrieren wir diese beiden Ansätze in einen effektiven Motion Discrete Diffusion (MDD)-Rahmen, um eine Balance zwischen Bewegungsqualität und Vielfalt zu erreichen. Umfangreiche Experimente auf HumanML3D und KIT-ML zeigen, dass DiverseMotion die derzeit beste Bewegungsqualität erreicht und eine konkurrenzfähige Bewegungsdiversität aufweist. Die Datensammlung, der Quellcode und vortrainierte Modelle werden veröffentlicht, um die Reproduktion aller Ergebnisse zu ermöglichen.