منذ 11 أيام

TM2D: توليد رقص ثلاثي الأبعاد مدفوع بالثنائية عبر دمج الموسيقى والنص

Kehong Gong, Dongze Lian, Heng Chang, Chuan Guo, Zihang Jiang, Xinxin Zuo, Michael Bi Mi, Xinchao Wang

الملخص

نُقدّم مهمة جديدة لإنجاز حركات رقص ثلاثية الأبعاد التي تدمج بشكل متزامن كلا الوسائط النصية والموسيقية. على عكس الدراسات الحالية التي تُولِّد حركات الرقص باستخدام وسيلة واحدة مثل الموسيقى، فإن هدفنا هو إنتاج حركات رقص غنية تُوجَّه بمساعدة المعلومات التوجيهية المقدمة في النص. ومع ذلك، يُعدّ نقص البيانات المرئية المزدوجة التي تشمل كل من الوسائط الموسيقية والنصية عائقًا يحد من إمكانية إنشاء حركات رقص تدمج بين كلا الوسيطتين. لمعالجة هذه التحديات، نقترح استخدام نموذج VQ-VAE للحركة البشرية ثلاثية الأبعاد لتحويل حركات مجموعتي البيانات إلى فضاء خفي مكوّن من متجهات كمية، مما يُمكّن من مزج رموز الحركة من المجموعتين اللتين تمتلكان توزيعات مختلفة لغرض التدريب. علاوةً على ذلك، نقترح استخدام نموذج تحويلي عابر الوسائط (cross-modal transformer) لدمج التعليمات النصية في بنية إنشاء الحركة، بهدف توليد حركات رقص ثلاثية الأبعاد دون التأثير على أداء توليد الرقص المعتمد على الموسيقى. ولتحسين تقييم جودة الحركات المولّدة، نقدّم معيارين جديدين هما: "مسافة التنبؤ بالحركة" (MPD) و"درجة التجمّد" (FS)، اللذان يقيسان الاتساق ونسبة التجمّد في الحركة المولّدة. تُظهر التجارب الواسعة أن نهجنا يمكنه إنتاج حركات رقص واقعية ومتسلسلة، معتمدة على النص والموسيقى معًا، مع الحفاظ على أداء مماثل للأداء المُحقَّق باستخدام الوسائط الفردية. يمكن الوصول إلى الكود من خلال الرابط التالي: https://garfield-kh.github.io/TM2D/.