ParCo: Part-Coordinating Text-to-Motion Synthesis

Wir untersuchen eine herausfordernde Aufgabe: die Text-zu-Bewegung-Synthese, mit dem Ziel, Bewegungen zu generieren, die den textuellen Beschreibungen entsprechen und koordinierte Bewegungsabläufe aufweisen. Derzeit integrieren part-basierte Methoden eine Aufteilung in Körperteile in den Syntheseprozess, um eine feinere Granularität der Bewegungsgenerierung zu erreichen. Diese Ansätze stoßen jedoch auf Herausforderungen wie die fehlende Koordination zwischen den Bewegungen verschiedener Körperteile sowie Schwierigkeiten für Netzwerke, Körperteil-Konzepte zu verstehen. Zudem verursacht die Einführung feingranularer Körperteil-Konzepte erhebliche Rechenaufwände. In diesem Artikel präsentieren wir Part-Coordinating Text-to-Motion Synthesis (ParCo), eine Methode mit verbesserten Fähigkeiten zur Verständnis von Körperteilbewegungen und zur Kommunikation zwischen verschiedenen Körperteil-Generatoren, um eine koordinierte und fein granulierte Bewegungssynthese sicherzustellen. Konkret diskretisieren wir die gesamtkörperliche Bewegung in mehrere Körperteilbewegungen, um ein vorheriges Wissen über die verschiedenen Körperteile zu etablieren. Anschließend setzen wir mehrere leichte Generatoren ein, die jeweils unterschiedliche Körperteilbewegungen synthetisieren und durch unseren Part-Coordinationsmodul koordinieren. Unser Ansatz zeigt überlegene Leistung auf gängigen Benchmarks bei geringem Rechenaufwand, darunter HumanML3D und KIT-ML, was eindrucksvolle Beweise für seine Wirksamkeit liefert. Der Quellcode ist unter https://github.com/qrzou/ParCo verfügbar.