مُشفّر تلقائي موحّد مع هياكل مُقسّمة إلى لوحات لتصنيع الحركة

تم التعامل تقليديًا مع توليد الحركة البشرية من خلال نماذج تعتمد على المهام، والتي تركز على تحديات محددة مثل توقع الحركات المستقبلية أو ملء الوضعيات الوسطية بشروط وضعيات رئيسية معروفة. في هذه الورقة، نقدم نموذجًا جديدًا لا يعتمد على المهمة يُسمى UNIMASK-M، الذي يمكنه معالجة هذه التحديات بكفاءة باستخدام بنية موحدة. ويحقق نموذجنا أداءً مماثلًا أو أفضل من أفضل النماذج الحالية في كل مجال. مستوحى من نماذج Vision Transformers (ViTs)، يُفكك نموذج UNIMASK-M الوضعية البشرية إلى أجزاء جسدية للاستفادة من العلاقات الزمانية المكانية الموجودة في الحركة البشرية. علاوةً على ذلك، نعيد صياغة مهام توليد الحركة المعتمدة على الوضعيات كمشكلة إعادة بناء، مع استخدام أنماط تغطية مختلفة كمدخلات. وبإبلاغ نموذجنا بشكل صريح بالعُقد المغطاة، يصبح UNIMASK-M أكثر مقاومة للإغلاق (التشويش). تُظهر النتائج التجريبية أن نموذجنا نجح في التنبؤ بحركات البشر على مجموعة بيانات Human3.6M. كما حقق أداءً رائدًا في مجال توليد الحركات الوسطية على مجموعة بيانات LaFAN1، وبشكل خاص في الفترات الانتقالية الطويلة. لمزيد من المعلومات، يُرجى زيارة الموقع الرسمي للمشروع: https://evm7.github.io/UNIMASKM-page/