HyperAIHyperAI

Command Palette

Search for a command to run...

MixSTE: مُشغّل الترميز المكاني-زماني المختلط لتقدير وضع الجسم البشري ثلاثي الأبعاد في الفيديو

Jinlu Zhang Zhigang Tu Jianyu Yang Yujin Chen Junsong Yuan

الملخص

تم تقديم حلول حديثة تعتمد على النماذج التحويلية (transformer) لتقدير وضع الإنسان ثلاثي الأبعاد من سلسلة نقاط المفتاح ثنائية الأبعاد، وذلك من خلال النظر إلى مفاصل الجسم في جميع الإطارات عالمياً لتعلم الارتباط المكاني-زماني. نلاحظ أن حركات المفاصل المختلفة تختلف بشكل كبير. ومع ذلك، لا يمكن للطرق السابقة بناء نموذج فعال للمراسلات الثابتة بين الإطارات لكل مفصل، مما يؤدي إلى تعلم غير كافٍ للارتباط المكاني-زماني. نقترح MixSTE (الشفرة المكانية-الزمانية المختلطة)، وهو يحتوي على كتلة تحويلية زمانية لنموذج الحركة الزمانية لكل مفصل بشكل منفصل وكتلة تحويلية مكانية لتعلم الارتباط المكاني بين المفاصل. يتم استخدام هاتين الكتلتين بالتناوب للحصول على ترميز أفضل للميزات المكانية-الزمانية. بالإضافة إلى ذلك، تم توسيع إخراج الشبكة من الإطار الأوسط إلى جميع إطارات الفيديو الداخلي، مما يحسن الترابط بين سلاسل الإدخال والإخراج. أجريت تجارب واسعة على ثلاثة مقاييس (Human3.6M، MPI-INF-3DHP، وHumanEva). أظهرت النتائج أن نموذجنا يتفوق على أفضل الطرق الحالية بنسبة 10.9% في P-MPJPE و7.6% في MPJPE. يمكن الحصول على الكود من الرابط: https://github.com/JinluZhang1126/MixSTE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp