Act As You Wish: Feinabgestimmte Steuerung eines Bewegungs-Diffusionsmodells mit hierarchischen semantischen Graphen

Die meisten textbasierten Ansätze zur Generierung menschlicher Bewegungen setzen sequenzielle Modellierungsansätze, beispielsweise Transformer, ein, um automatisch und implizit Satz-level-Textrepräsentationen für die Synthese menschlicher Bewegungen zu extrahieren. Diese kompakten Textrepräsentationen neigen jedoch dazu, die Aktionsnamen überzubetonen und dabei andere wichtige Eigenschaften zu vernachlässigen sowie feinabgestimmte Details zu verlieren, die zur Steuerung subtil unterschiedlicher Bewegungen notwendig wären. In diesem Artikel schlagen wir hierarchische semantische Graphen zur feinabgestimmten Kontrolle der Bewegungsgenerierung vor. Konkret zerlegen wir Bewegungsbeschreibungen in hierarchische semantische Graphen mit drei Ebenen: Bewegungen, Aktionen und Details. Solche global-to-local-Strukturen fördern ein umfassendes Verständnis der Bewegungsbeschreibung und ermöglichen eine feinabgestimmte Steuerung der Bewegungsgenerierung. Entsprechend nutzen wir die grob-zu-fein-Topologie der hierarchischen semantischen Graphen, indem wir den Text-zu-Bewegung-Diffusionsprozess in drei semantische Ebenen zerlegen, die jeweils der Erfassung der Gesamtbewegung, lokaler Aktionen und spezifischer Aktionseigenschaften entsprechen. Ausführliche Experimente auf zwei etablierten Benchmark-Datensätzen für menschliche Bewegungen – HumanML3D und KIT – mit überlegenen Ergebnissen belegen die Wirksamkeit unseres Ansatzes. Noch ermutigender ist, dass durch Anpassung der Kantengewichte in den hierarchischen semantischen Graphen die generierte Bewegung kontinuierlich verfeinert werden kann, was möglicherweise eine nachhaltige Wirkung auf die Forschungsgemeinschaft haben wird. Der Quellcode und die vortrainierten Gewichte sind unter https://github.com/jpthu17/GraphMotion verfügbar.