التحريك البشري المُتَّسِع كما قبل توليدي

أظهرت الدراسات الحديثة الإمكانات الكبيرة للنماذج التلقائية لتصفية التشويش (denoising diffusion models) في توليد الحركات البشرية، بما في ذلك القدرة على التحويل من النص إلى الحركة. ومع ذلك، تُعاني هذه الأساليب من نقص البيانات الحركية المُعلَّمة، وتركيزها على الحركات الفردية، بالإضافة إلى غياب التحكم التفصيلي. في هذه الورقة، نقدّم ثلاث صيغ توليفية تعتمد على النماذج الأولية (diffusion priors): التوليف التسلسلي، والتوليف الموازي، وتوليف النماذج. باستخدام التوليف التسلسلي، نعالج تحدي توليد التسلسلات الطويلة، حيث نقدّم طريقة "DoubleTake" التي تعمل أثناء الاستدلال (inference-time)، وتُنتج أنماطًا طويلة تتكون من فترات مُحفَّزة وانتقالاتها، باستخدام نموذج أولي تم تدريبه فقط على مقاطع قصيرة. وباستخدام التوليف الموازي، نُظهر خطوات واعدة نحو توليد الحركات الثنائية. ونبدأ بنموذجين أوليين ثابتين، بالإضافة إلى عدد قليل من الأمثلة التدريبية الثنائية، ثم نتعلم كتلة اتصال رقيقة تُسمى ComMDM لتنسيق التفاعل بين الحركتين الناتجتين. أخيرًا، باستخدام توليف النماذج، نُدرّب نماذج أولية منفصلة لإكمال الحركات التي تحقق حركة محددة لمرفق معين. ثم نقدّم DiffusionBlending، وهي آلية تداخل (interpolation mechanism)، لدمج عدة نماذج من هذا النوع بشكل فعّال، مما يمكّن من التحكم والتحرير المرن والدقيق على مستوى المرافق والمسارات. وقد قُمنا بتقييم أساليب التوليف باستخدام نموذج تلقائي للحركة مُتاح جاهزًا، وقارنّا النتائج مع نماذج متخصصة تم تدريبها لهذه المهام المحددة.