ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model

Die Generierung von 3D-Menschenbewegungen ist für die kreative Industrie von entscheidender Bedeutung. In jüngster Zeit basieren Fortschritte auf generativen Modellen, die domänenspezifisches Wissen nutzen, um bewegungsbezogene Generierung auf der Grundlage von Textbeschreibungen zu ermöglichen, was zu erheblichen Fortschritten bei der Erfassung alltäglicher Bewegungen geführt hat. Dennoch bleibt die Leistung bei der Generierung vielfältigerer Bewegungen unzureichend. In dieser Arbeit präsentieren wir ReMoDiffuse, einen auf Diffusionsmodellen basierenden Ansatz zur Bewegungsgenerierung, der eine Abrufmechanik integriert, um den Entrauschungsprozess zu verfeinern. ReMoDiffuse verbessert die Generalisierbarkeit und Vielfalt der textgesteuerten Bewegungsgenerierung durch drei zentrale Entwürfe: 1) Hybrid Retrieval identifiziert geeignete Referenzen aus der Datenbank sowohl hinsichtlich semantischer als auch kinematischer Ähnlichkeit. 2) Der semantikgesteuerte Transformer nimmt gezielt Wissen aus den abgerufenen Referenzen auf und passt sich den Unterschieden zwischen den abgerufenen Mustern und der Zielbewegungssequenz an. 3) Die Bedingungsmischung nutzt die Abrufdatenbank während der Inferenz effizienter und überwindet die Skalensensitivität bei der klassifizierungslosen Leitungssteuerung. Umfangreiche Experimente zeigen, dass ReMoDiffuse gegenwärtige State-of-the-Art-Methoden übertrifft, indem es sowohl die Konsistenz zwischen Text und Bewegung als auch die Qualität der Bewegung ausgewogen verbessert – insbesondere bei der Generierung vielfältiger Bewegungen.