Command Palette
Search for a command to run...
MotionBERT: منظور موحد لتعلم تمثيلات الحركة البشرية
MotionBERT: منظور موحد لتعلم تمثيلات الحركة البشرية
Wentao Zhu Xiaoxuan Ma Zhaoyang Liu Libin Liu Wayne Wu Yizhou Wang
الملخص
نقدم رؤية موحدة للتعامل مع مجموعة متنوعة من المهام المرتبطة بالفيديو البشري من خلال تعلم تمثيلات الحركة البشرية من مصادر بيانات كبيرة ومتنوعة. بشكل خاص، نقترح مرحلة تدريب أولي حيث يتم تدريب مُشفِّر الحركة على استعادة الحركة ثلاثية الأبعاد الكامنة وراء الملاحظات ثنائية الأبعاد غير الكاملة والضوضائية. يتم الحصول على التمثيلات الحركية بهذه الطريقة مع دمج المعرفة الهندسية والكينماتيكية والفيزيائية حول حركة الإنسان، والتي يمكن نقلها بسهولة إلى عدة مهام لاحقة.لقد قمنا بتنفيذ مُشفِّر الحركة باستخدام شبكة عصبية تحويلية زمانية-مكانية ثنائية التيار (DSTformer). يمكن لهذه الشبكة أن تلتقط العلاقات الزمانية-المكانية طويلة المدى بين المفاصل الهيكلية بشكل شامل ومرن، مما يظهر أدنى خطأ في تقدير الوضع ثلاثي الأبعاد حتى الآن عند التدريب من الصفر. بالإضافة إلى ذلك، حقق الإطار المقترح أداءً متقدمًا على جميع المهام الثلاثة اللاحقة عن طريق تعديل بسيط لمُشفِّر الحركة الذي تم تدريبه مسبقًا باستخدام رأس انحدار بسيط (1-2 طبقات)، مما يدل على متانة التمثيلات الحركية التي تم تعلمها. الرمز والموديلات متاحة على الرابط: https://motionbert.github.io/