DisCoRD: Diskrete Token zu kontinuierlicher Bewegung durch rektifizierten Fluss Dekodierung

Die menschliche Bewegung, inhärent kontinuierlich und dynamisch, stellt für generative Modelle erhebliche Herausforderungen dar. Trotz ihrer Vorherrschaft leiden diskrete Quantisierungsmethoden wie VQ-VAEs an inherenten Einschränkungen, darunter eingeschränkte Ausdrucksfähigkeit und rahmengestützte Rauschartefakte. Kontinuierliche Ansätze erzeugen zwar flüssigere und natürlichere Bewegungen, scheitern jedoch oft an der hochdimensionalen Komplexität und den begrenzten Trainingsdaten. Um diese "Diskrepanz" zwischen diskreten und kontinuierlichen Darstellungen zu lösen, stellen wir DisCoRD vor: Diskrete Token zu kontinuierlicher Bewegung durch rektifizierte Flussdekodierung (Discrete Tokens to Continuous Motion via Rectified Flow Decoding). Diese neuartige Methode decodiert diskrete Bewegungstoken in kontinuierliche Bewegungen durch einen rektifizierten Fluss. Durch einen iterativen Verfeinerungsprozess im kontinuierlichen Raum fängt DisCoRD feingranulare Dynamiken ein und gewährleistet flüssigere und natürlichere Bewegungen. Unser Verfahren ist mit jedem diskret basierten Framework kompatibel und verbessert die Natürlichkeit ohne die Treue zu den Bedingungssignalen zu gefährden. Umfangreiche Evaluierungen zeigen, dass DisCoRD den Stand der Technik erreicht, mit einem FID von 0,032 auf HumanML3D und 0,169 auf KIT-ML. Diese Ergebnisse bekräftigen DisCoRD als eine robuste Lösung zur Brückenschlagung zwischen diskreter Effizienz und kontinuierlicher Realismus. Unsere Projektseite ist unter folgender URL verfügbar: https://whwjdqls.github.io/discord.github.io/.