Free-T2M: نموذج التوسع النصي إلى الحركي المُحسَّن بالتردد مع خسارة الثبات

التقدم السريع في توليد الحركة من النص يُعزى بشكل كبير إلى نماذج الانتشار (diffusion models). ومع ذلك، فإن الأساليب الحالية تركز فقط على النمذجة الزمنية، مما يجعلها تغفل عن التحليل في مجال التردد. لقد حددنا مرحلتين رئيسيتين في تنقية الحركة: مرحلة التخطيط الدلالي ومرحلة التحسين الدقيق. لمعالجة هاتين المرحلتين بفعالية، نقترح نموذج الانتشار المُعزز بالمجال الترددي لتوليد الحركة من النص (Fre-T2M)، والذي يدمج خسائر ثبات محددة لكل مرحلة تعزز صلابة الخصائص الثابتة وتحسن الدقة الدقيقة. تُظهر التجارب الواسعة فعالية طريقتنا. وبشكل خاص، على StableMoFusion، تقلل طريقتنا مؤشر الاختلاف الشامل (FID) من 0.189 إلى 0.051، مما يُحدد أداءً جديدًا يتفوق على أفضل الأداءات السابقة (SOTA) ضمن هندسة الانتشار. هذه النتائج تؤكد أهمية دمج الرؤى المتعلقة بمجال التردد في توليد الحركة من النص للحصول على نتائج أكثر دقة وصلابة.