MCM: إطار عمل تركيب الحركة متعدد الشروط

تهدف التوليد الشرطي للحركة البشرية (HMS) إلى إنتاج تسلسلات حركة بشرية تتماشى مع شروط محددة. تمثل النصوص والصوت النموذجين الرئيسيين المستخدمين كشروط تحكم في HMS. وعلى الرغم من أن الأبحاث الحالية ركزت بشكل رئيسي على الشروط الواحدة، إلا أن مجال التوليد المتعدد الشروط للحركة البشرية ما زال مُهملًا إلى حد كبير. في هذه الدراسة، نقترح إطارًا جديدًا لـ HMS متعدد الشروط يُسمى MCM، مستندًا إلى هيكل مزدوج يتكون من فرع رئيسي وفرع تحكم. يمكّن هذا الإطار من توسيع نطاق تطبيق نموذج التشتت (diffusion model)، الذي كان يعتمد في البداية فقط على الشروط النصية، ليشمل الشروط الصوتية أيضًا. ويشمل هذا التوسيع كلًا من التوليد من الموسيقى إلى الرقص (music-to-dance) والحركة المرتبطة بالكلام (co-speech HMS)، مع الحفاظ على الجودة الجوهرية للحركة وقدرات النموذج الأصلي في الترابط الدلالي. علاوةً على ذلك، نقترح تنفيذ نموذج تشتت مبني على مُحول (Transformer)، يُسمى MWNet، كفرع رئيسي. ويتميز هذا النموذج بقدرته العالية على استيعاب التعقيدات المكانية والعلاقات بين المفاصل في تسلسلات الحركة، وذلك بفضل دمج وحدات الانتباه الذاتي متعددة الأبعاد (multi-wise self-attention). وأظهرت التجارب الواسعة أن طريقة العمل لدينا تحقق نتائج تنافسية في مهام التوليد الشرطي الواحد والمتعدد الشروط للحركة البشرية.