MotionBERT: منظور موحد لتعلم تمثيلات الحركة البشرية

نقدم رؤية موحدة للتعامل مع مجموعة متنوعة من المهام المرتبطة بالفيديو البشري من خلال تعلم تمثيلات الحركة البشرية من مصادر بيانات كبيرة ومتنوعة. بشكل خاص، نقترح مرحلة تدريب أولي حيث يتم تدريب مُشفِّر الحركة على استعادة الحركة ثلاثية الأبعاد الكامنة وراء الملاحظات ثنائية الأبعاد غير الكاملة والضوضائية. يتم الحصول على التمثيلات الحركية بهذه الطريقة مع دمج المعرفة الهندسية والكينماتيكية والفيزيائية حول حركة الإنسان، والتي يمكن نقلها بسهولة إلى عدة مهام لاحقة.لقد قمنا بتنفيذ مُشفِّر الحركة باستخدام شبكة عصبية تحويلية زمانية-مكانية ثنائية التيار (DSTformer). يمكن لهذه الشبكة أن تلتقط العلاقات الزمانية-المكانية طويلة المدى بين المفاصل الهيكلية بشكل شامل ومرن، مما يظهر أدنى خطأ في تقدير الوضع ثلاثي الأبعاد حتى الآن عند التدريب من الصفر. بالإضافة إلى ذلك، حقق الإطار المقترح أداءً متقدمًا على جميع المهام الثلاثة اللاحقة عن طريق تعديل بسيط لمُشفِّر الحركة الذي تم تدريبه مسبقًا باستخدام رأس انحدار بسيط (1-2 طبقات)، مما يدل على متانة التمثيلات الحركية التي تم تعلمها. الرمز والموديلات متاحة على الرابط: https://motionbert.github.io/