HyperAIHyperAI
منذ 16 أيام

مُرَقِّص الذكاء الاصطناعي: توليد الرقص ثلاثي الأبعاد المشروط بالموسيقى باستخدام AIST++

Ruilong Li, Shan Yang, David A. Ross, Angjoo Kanazawa
مُرَقِّص الذكاء الاصطناعي: توليد الرقص ثلاثي الأبعاد المشروط بالموسيقى باستخدام AIST++
الملخص

نقدم AIST++، وهو مجموعة بيانات متعددة الوسائط جديدة تتضمن حركات رقص ثلاثية الأبعاد والموسيقى، إلى جانب FACT، وهو شبكة ترانسفورمر عابر الوسائط ذات انتباه كامل لاستنتاج حركات الرقص ثلاثية الأبعاد المشروطة بالموسيقى. تحتوي مجموعة البيانات AIST++ على 5.2 ساعة من حركات الرقص ثلاثية الأبعاد موزعة على 1408 تسلسلًا، وتغطي 10 أنواعًا من الرقص، مع مقاطع فيديو متعددة الزوايا ذات موضع كاميرات معروف — وهي أكبر مجموعة بيانات من هذا النوع حسب معرفتنا. نُظهر أن تطبيق النماذج التسلسلية مثل الترانسفورمرات بشكل مباشر على هذه المجموعة للعملية المتعلقة بإنشاء حركات ثلاثية الأبعاد مشروطة بالموسيقى لا يُنتج حركات ثلاثية الأبعاد مرضية تتماشى بشكل جيد مع الموسيقى المدخلة. ونتحدى هذه العيوب من خلال إدخال تغييرات جوهرية في تصميم المعمارية والرقابة: حيث يعتمد نموذج FACT على كتلة ترانسفورمر عابر الوسائط العميقة ذات انتباه كامل، تم تدريبها لتنبؤ بـ $N$ حركات مستقبلية. ونُثبت تجريبيًا أن هذه التغييرات تمثل العوامل الحاسمة في إنتاج تسلسلات طويلة من حركات الرقص الواقعية التي تكون متناغمة جيدًا مع الموسيقى المدخلة. وأجرينا تجارب واسعة على مجموعة AIST++ مع دراسات مستخدمين، حيث تفوقت طريقة لدينا على أحدث الطرق المتميزة من حيث الجودة والقياس الكمي.

مُرَقِّص الذكاء الاصطناعي: توليد الرقص ثلاثي الأبعاد المشروط بالموسيقى باستخدام AIST++ | أحدث الأوراق البحثية | HyperAI