تنفيذ الأوامر الخاصة بك من خلال التمايز الحركي في الفضاء الخفي

ندرس مهمة صعبة تُعرف بـ "توليد الحركة البشرية الشرطية"، التي تُنتج تسلسلات حركة بشرية واقعية استنادًا إلى مدخلات شرطية متنوعة، مثل فئات الأفعال أو وصفات نصية. وبما أن الحركات البشرية متنوعة للغاية، وتمتلك توزيعًا مختلفًا جدًا عن الوسائط الشرطية، مثل الوصفات النصية بلغات طبيعية، فمن الصعب التعلم لرسم خريطة احتمالية من الوسيط الشرطي المطلوب إلى تسلسلات الحركة البشرية. بالإضافة إلى ذلك، قد تكون بيانات الحركة الخام المستمدة من أنظمة التقاط الحركة متكررة في التسلسلات وتحتوي على ضوضاء؛ فإن نمذجة التوزيع المشترك على تسلسلات الحركة الخام والوسائط الشرطية مباشرةً تتطلب حملًا حسابيًا ثقيلًا وقد تؤدي إلى تشوهات ناتجة عن الضوضاء المُسجّلة. لتعلم تمثيل أفضل لتسلسلات الحركة البشرية المتنوعة، نصمم أولًا نموذجًا قويًا يُسمى "مُشفّر تلقائي احتمالي" (Variational AutoEncoder - VAE)، ونصل إلى رمز خطي مُمثّل وذو أبعاد منخفضة لسلسلة حركة بشرية. ثم، بدلًا من استخدام نموذج تباعد (Diffusion Model) لربط تسلسلات الحركة الخام بالمدخلات الشرطية مباشرةً، نُطبّق عملية التباعد في فضاء الرمز الخطي للحركة. يُسمى النموذج المقترح "نموذج التباعد القائم على الرمز الخطي للحركة" (Motion Latent-based Diffusion Model - MLD)، ويمكنه إنتاج تسلسلات حركة واقعية تتوافق مع المدخلات الشرطية المحددة، مع تقليل كبير في الحمل الحسابي خلال مراحل التدريب والاستنتاج. أظهرت تجارب واسعة على مهام متعددة لتوليد الحركة البشرية أن نموذج MLD يحقق تحسينات كبيرة مقارنة بالأساليب المتطورة حاليًا، ويكون أسرع بمقدار مرتين (أي بعشرات المرات) من النماذج التبادلية السابقة التي تعمل مباشرة على تسلسلات الحركة الخام.