Synergistische Ganzkörpersteuerung in der promptbasierten Co-Sprachbewegungsgenerierung ermöglichen

Aktuelle Ansätze zur Generierung von Co-Speech-Bewegungen konzentrieren sich in der Regel nur auf Gesten des oberen Körpers, die dem gesprochenen Inhalt folgen, und bieten keine Unterstützung für die detaillierte Steuerung von koordinierten Bewegungen des gesamten Körpers basierend auf Textanweisungen, wie zum Beispiel das Sprechen während des Gehens. Die Hauptausforderungen liegen darin, dass 1) die vorhandenen Sprache-zu-Bewegungsdatensätze nur sehr begrenzte Bewegungen des gesamten Körpers umfassen, was einen breiten Spektrum alltäglicher menschlicher Aktivitäten außerhalb der Trainingsverteilung lässt; 2) diese Datensätze auch keine annotierten Benutzeranweisungen enthalten. Um diesen Herausforderungen zu begegnen, schlagen wir SynTalker vor, welches den über den Ladentisch geholten Text-zu-Bewegungsdatensatz als Ergänzung nutzt, um die fehlenden Bewegungen des gesamten Körpers und Anweisungen zu ergänzen. Die wesentlichen technischen Beiträge sind zweifach. Erstens ist es ein mehrstufiger Trainingsprozess, der trotz erheblicher Verteilungsunterschiede in den Bewegungen zwischen den Sprache-zu-Bewegungs- und Text-zu-Bewegungsdatensätzen einen ausgerichteten Einbettungsraum von Bewegung, Sprache und Anweisungen erhält. Zweitens ist es ein diffusionsbasierter bedingter Inferenzprozess, der durch eine getrennt-dann-verbindende Strategie eine feingranulare Steuerung von lokalen Körperpartien ermöglicht. Ausführliche Experimente wurden durchgeführt, um zu verifizieren, dass unser Ansatz präzise und flexible Steuerung der koordinierten Generierung von Bewegungen des gesamten Körpers sowohl auf Grundlage von Reden als auch von Benutzeranweisungen unterstützt, was über die Fähigkeiten bestehender Ansätze hinausgeht.