HyperAIHyperAI
منذ 2 أشهر

MixSTE: مُشغّل الترميز المكاني-زماني المختلط لتقدير وضع الجسم البشري ثلاثي الأبعاد في الفيديو

Zhang, Jinlu ; Tu, Zhigang ; Yang, Jianyu ; Chen, Yujin ; Yuan, Junsong
MixSTE: مُشغّل الترميز المكاني-زماني المختلط لتقدير وضع الجسم البشري ثلاثي الأبعاد في الفيديو
الملخص

تم تقديم حلول حديثة تعتمد على النماذج التحويلية (transformer) لتقدير وضع الإنسان ثلاثي الأبعاد من سلسلة نقاط المفتاح ثنائية الأبعاد، وذلك من خلال النظر إلى مفاصل الجسم في جميع الإطارات عالمياً لتعلم الارتباط المكاني-زماني. نلاحظ أن حركات المفاصل المختلفة تختلف بشكل كبير. ومع ذلك، لا يمكن للطرق السابقة بناء نموذج فعال للمراسلات الثابتة بين الإطارات لكل مفصل، مما يؤدي إلى تعلم غير كافٍ للارتباط المكاني-زماني. نقترح MixSTE (الشفرة المكانية-الزمانية المختلطة)، وهو يحتوي على كتلة تحويلية زمانية لنموذج الحركة الزمانية لكل مفصل بشكل منفصل وكتلة تحويلية مكانية لتعلم الارتباط المكاني بين المفاصل. يتم استخدام هاتين الكتلتين بالتناوب للحصول على ترميز أفضل للميزات المكانية-الزمانية. بالإضافة إلى ذلك، تم توسيع إخراج الشبكة من الإطار الأوسط إلى جميع إطارات الفيديو الداخلي، مما يحسن الترابط بين سلاسل الإدخال والإخراج. أجريت تجارب واسعة على ثلاثة مقاييس (Human3.6M، MPI-INF-3DHP، وHumanEva). أظهرت النتائج أن نموذجنا يتفوق على أفضل الطرق الحالية بنسبة 10.9% في P-MPJPE و7.6% في MPJPE. يمكن الحصول على الكود من الرابط: https://github.com/JinluZhang1126/MixSTE.