المتنبئون بالحركة المقنعة هم متعلمو تمثيل أفعال قوي في ثلاث الأبعاد

في مجال التعرف على حركات الإنسان ثلاثية الأبعاد، تشكل البيانات المشرف عليها المحدودة تحديًا كبيرًا للاستفادة الكاملة من إمكانات النمذجة للشبكات القوية مثل الشبكات العصبية المتغيرة (transformers). نتيجة لذلك، قام الباحثون بدراسة نشطة للأساليب الفعالة للتدریب الذاتي المسبق. في هذا البحث، نوضح أن بدلاً من اتباع المهمة السابقة السائدة التي تقوم بإعادة بناء المكونات الذاتية المخفية في مفاصل الإنسان، فإن النمذجة الصريحة للحركة السياقية هي العنصر الرئيسي لنجاح تعلم تمثيل الخصائص الفعّال للحركات ثلاثية الأبعاد. بشكل رسمي، نقترح إطار التنبؤ بالحركة المخفية (Masked Motion Prediction - MAMP). بتفصيل أكثر، يقوم الإطار المقترح MAMP بأخذ سلسلة الهيكل الزماني-المكاني المخفية كمدخل ويتوقع الحركة الزمنية للمفاصل البشرية المخفية. نظرًا لوجود تكرار زمني عالي في سلسلة الهيكل، فإن المعلومات الحركية تعمل أيضًا كسابقة غنية بالمعنى التجربية توجه عملية التخفي، مما يعزز الانتباه الأفضل إلى المناطق الزمنية الغنية بالمعنى. أظهرت التجارب الواسعة على مجموعات بيانات NTU-60 و NTU-120 و PKU-MMD أن التدريب الذاتي المسبق باستخدام MAMP يحسن بشكل كبير أداء المحول البسيط المستخدم، ويحقق أفضل النتائج الحالية دون الحاجة إلى تقنيات معقدة. يمكن الحصول على شفرة المصدر الخاصة بـ MAMP من الرابط التالي: https://github.com/maoyunyao/MAMP.