HyperAIHyperAI
vor 2 Monaten

BiPO: Bidirektionales Partielles Verdeckungsnetzwerk für Text-zu-Bewegung-Synthese

Hong, Seong-Eun ; Lim, Soobin ; Hwang, Juyeong ; Chang, Minwook ; Kang, Hyeongyeop
BiPO: Bidirektionales Partielles Verdeckungsnetzwerk für Text-zu-Bewegung-Synthese
Abstract

Die Generierung natürlicher und ausdrucksstarker menschlicher Bewegungen aus textuellen Beschreibungen ist aufgrund der Komplexität der Koordination von Vollkörperdynamik und der Erfassung feiner Bewegungsmuster über längere Sequenzen, die den gegebenen Text genau widerspiegeln, herausfordernd. Um dies zu bewältigen, stellen wir BiPO vor, ein bidirektionales Netzwerk zur teilweisen Okkusion (Bidirectional Partial Occlusion Network) für die Text-zu-Bewegung-Synthese. Dieses neuartige Modell verbessert die Text-zu-Bewegung-Synthese durch die Integration von teilbasierten Generierungsverfahren mit einer bidirektionalen autoregressiven Architektur. Diese Integration ermöglicht es BiPO, sowohl den vergangenen als auch den zukünftigen Kontext während der Generierung zu berücksichtigen, während es gleichzeitig eine detaillierte Kontrolle über einzelne Körperteile ohne die Angabe der tatsächlichen Bewegungslänge bietet. Um die durch die Integration entstandene Interdependenz zwischen Körperteilen zu lockern, haben wir das Verfahren der teilweisen Okkusion (Partial Occlusion) entwickelt, das während des Trainings bestimmte Bewegungsteilinformationen wahrscheinlichkeitsbasiert verdeckt. In unseren umfassenden Experimenten erreicht BiPO den aktuellen Stand der Technik auf dem HumanML3D-Datensatz und übertrifft aktuelle Methoden wie ParCo, MoMask und BAMM hinsichtlich FID-Werten und allgemeiner Bewegungsqualität. Besonders auffällig ist, dass BiPO nicht nur in der Aufgabe der Text-zu-Bewegung-Generierung hervorragt, sondern auch in Bewegungsbearbeitungsaufgaben, bei denen Bewegungen auf Basis teilweise generierter Bewegungssequenzen und textueller Beschreibungen synthetisiert werden. Diese Ergebnisse zeigen die Effektivität von BiPO bei der Weiterentwicklung der Text-zu-Bewegung-Synthese sowie dessen Potenzial für praktische Anwendungen.

BiPO: Bidirektionales Partielles Verdeckungsnetzwerk für Text-zu-Bewegung-Synthese | Neueste Forschungsarbeiten | HyperAI