HyperAIHyperAI

Command Palette

Search for a command to run...

Free-T2M: نموذج التوسع النصي إلى الحركي المُحسَّن بالتردد مع خسارة الثبات

Chen Wenshuo ; Jia Haozhe ; Lai Songning ; Wu Keming ; Xiao Hongru ; Hu Lijie ; Yue Yutao

الملخص

التقدم السريع في توليد الحركة من النص يُعزى بشكل كبير إلى نماذج الانتشار (diffusion models). ومع ذلك، فإن الأساليب الحالية تركز فقط على النمذجة الزمنية، مما يجعلها تغفل عن التحليل في مجال التردد. لقد حددنا مرحلتين رئيسيتين في تنقية الحركة: مرحلة التخطيط الدلالي ومرحلة التحسين الدقيق. لمعالجة هاتين المرحلتين بفعالية، نقترح نموذج الانتشار المُعزز بالمجال الترددي لتوليد الحركة من النص (Fre-T2M)، والذي يدمج خسائر ثبات محددة لكل مرحلة تعزز صلابة الخصائص الثابتة وتحسن الدقة الدقيقة. تُظهر التجارب الواسعة فعالية طريقتنا. وبشكل خاص، على StableMoFusion، تقلل طريقتنا مؤشر الاختلاف الشامل (FID) من 0.189 إلى 0.051، مما يُحدد أداءً جديدًا يتفوق على أفضل الأداءات السابقة (SOTA) ضمن هندسة الانتشار. هذه النتائج تؤكد أهمية دمج الرؤى المتعلقة بمجال التردد في توليد الحركة من النص للحصول على نتائج أكثر دقة وصلابة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Free-T2M: نموذج التوسع النصي إلى الحركي المُحسَّن بالتردد مع خسارة الثبات | مستندات | HyperAI