رقص الثورة: توليد الرقص الطويل الأمد مع الموسيقى من خلال التعلم التدريجي

رقص الموسيقى يُعدّ من المهارات الطبيعية التي يمتلكها الإنسان منذ العصور القديمة. ومع ذلك، يُعدّ توليد حركات الرقص من الموسيقى تحديًا كبيرًا في أبحاث التعلم الآلي. في الآونة الأخيرة، اعتمد الباحثون نماذج ذات ارتباط تسلسلي مثل الشبكات العصبية التكرارية (RNN) لتوليد تسلسلات حركة إنسانية. لكن هذا النهج غالبًا ما ينتج تسلسلات قصيرة بسبب تراكم أخطاء التنبؤ التي تُعاد تغذيةُها إلى الشبكة العصبية. وتزداد هذه المشكلة سوءًا عند توليد تسلسلات طويلة من الحركة. علاوةً على ذلك، لا تُؤخذ في الاعتبار التماسك بين الرقص والموسيقى من حيث الأسلوب والإيقاع والضربة أثناء النمذجة. في هذا البحث، نُصِّفُ توليد الرقص المُشَرَّط بالموسيقى كمشكلة تعلّم تسلسلي-إلى-تسلسلي، ونُصَمِّمُ معمارية seq2seq جديدة تُتيح معالجة فعّالة لتسلسلات طويلة من خصائص الموسيقى، وتمكّن من التقاط التقابل الدقيق على مستوى الدقة بين الموسيقى والرقص. علاوةً على ذلك، نُقدّم استراتيجية تعلّم منهجية جديدة لتقليل تراكم الأخطاء في النماذج ذات الارتباط التسلسلي عند توليد تسلسلات طويلة من الحركة، حيث يتم تغيير عملية التدريب تدريجيًا من نموذج موجه بالكامل باستخدام الحركات الحقيقية السابقة (teacher-forcing)، إلى نموذج أقل توجيهًا يعتمد بشكل أساسي على الحركات المولّدة. أظهرت التجارب الواسعة أن نهجنا يتفوق بشكل كبير على أحدث النماذج الحالية من حيث المقاييس الآلية والتقييم البشري. كما أنشأنا فيديو تجريبيًا لعرض الأداء المتميز لنهجنا على الرابط التالي: https://www.youtube.com/watch?v=lmE20MEheZ8.