HyperAIHyperAI
vor 2 Monaten

Free-T2M: Frequenzverstärktes Text-zu-Bewegung-Diffusionsmodell mit Konsistenzverlust

Chen, Wenshuo ; Jia, Haozhe ; Lai, Songning ; Wu, Keming ; Xiao, Hongru ; Hu, Lijie ; Yue, Yutao
Free-T2M: Frequenzverstärktes Text-zu-Bewegung-Diffusionsmodell mit Konsistenzverlust
Abstract

Schnelle Fortschritte bei der Text-zu-Bewegungserzeugung werden weitgehend von Diffusionsmodellen getrieben. Bestehende Methoden konzentrieren sich jedoch ausschließlich auf die zeitliche Modellierung und vernachlässigen dabei die Frequenzbereichsanalyse. Wir identifizieren zwei entscheidende Phasen im Bewegungsrauschenreduzieren: die semantische Planungsphase und die feingranulare Verbesserungsphase. Um diese Phasen effektiv anzugehen, schlagen wir das Frequenz erhöhte text-zu-bewegungsdiffusionsmodell (Free-T2M) vor, das phasenspezifische Konsistenzerhaltungsverluste integriert, welche die Robustheit statischer Merkmale erhöhen und die feingranular genaue Genauigkeit verbessern. Ausführliche Experimente belegen die Effektivität unserer Methode. Insbesondere auf StableMoFusion reduziert unsere Methode den FID von 0.189 auf 0.051, wodurch eine neue Top-Leistung innerhalb der Diffusionsarchitektur etabliert wird. Diese Ergebnisse unterstreichen die Bedeutung der Einbeziehung von Frequenzbereichskenntnissen in die Text-zu-Bewegungserzeugung für präzisere und robusteres Ergebnisse.注释:- "Text-to-motion generation" 翻译为 "Text-zu-Bewegungserzeugung"- "Diffusion models" 翻译为 "Diffusionsmodelle"- "Temporal modeling" 翻译为 "zeitliche Modellierung"- "Frequency-domain analysis" 翻译为 "Frequenzbereichsanalyse"- "Motion denoising" 翻译为 "Bewegungsrauschenreduzieren"- "Semantic planning stage" 翻译为 "semantische Planungsphase"- "Fine-grained improving stage" 翻译为 "feingranulare Verbesserungsphase"- "Consistency losses" 翻译为 "Konsistenzerhaltungsverluste"- "Static features" 翻译为 "statische Merkmale"- "FID (Fréchet Inception Distance)" 保留原样- "StableMoFusion" 保留原样- "SOTA (State-of-the-Art)" 用德语表述为 "Top-Leistung"希望这些翻译符合您的要求。如有任何进一步的修改或补充,请随时告知。

Free-T2M: Frequenzverstärktes Text-zu-Bewegung-Diffusionsmodell mit Konsistenzverlust | Neueste Forschungsarbeiten | HyperAI