MotionMixer: التنبؤ بوضعية جسم الإنسان ثلاثي الأبعاد المستند إلى MLP

في هذا العمل، نقدم نموذج MotionMixer، وهو نموذج فعّال لتوقع وضعية جسم الإنسان ثلاثي الأبعاد يستند حصريًا إلى الشبكات العصبية متعددة الطبقات (MLPs). يتعلم MotionMixer الاعتماديات الفضائية-الزمنية لوضعية جسم الإنسان من خلال خلط الوسائط بشكل تسلسلي. مع إعطاء تسلسل مكدس من وضعيات الجسم ثلاثية الأبعاد، يستخرج MLP المكاني التفاصيل الدقيقة للعلاقة المكانية بين مفاصل الجسم. ثم يتم نمذجة تفاعل مفاصل الجسم عبر الزمن باستخدام MLP الزمني. تُجمع السمات المختلطة الفضائية-الزمنية في النهاية وتفكَّك لاستخلاص الحركة المستقبلية. ولضبط تأثير كل خطوة زمنية في تسلسل الوضعية، نستخدم كتل التقليل والتحفيز (SE blocks). وقد قمنا بتقييم منهجنا على مجموعات بيانات Human3.6M وAMASS و3DPW باستخدام البروتوكولات القياسية للتقييم. وفي جميع التقييمات، أظهرنا أداءً من الدرجة الأولى مقارنة بالأساليب الحالية، مع الحفاظ على نموذج يحتوي على عدد أقل من المعلمات. يمكن الوصول إلى الكود الخاص بنا من خلال: https://github.com/MotionMLP/MotionMixer