HyperAIHyperAI

Command Palette

Search for a command to run...

تقدير وضع الإنسان الثلاثي الأبعاد باستخدام انتباه عابر مكاني-زمني

Ting Yao Richang Hong Yanbin Hao Zhaofan Qiu Zhenhua Tang

الملخص

أظهرت الحلول القائمة على المحولات (transformers) مؤخرًا نجاحًا كبيرًا في تقدير وضعية الإنسان ثلاثية الأبعاد. ومع ذلك، فإن حساب مصفوفة الترابط بين المفاصل يرتفع بشكل تربيعي مع زيادة عدد المفاصل، مما يشكل عيبًا جوهريًا، وخاصة في تقدير الوضعية ضمن تسلسل فيديو، حيث يُطلب الترابط المكاني-الزماني الذي يمتد عبر الفيديو بأكمله. في هذه الورقة، نعالج هذه المشكلة من خلال تفكيك تعلم الترابط إلى مكونات مكاني وزماني، ونقدّم كتلة انتباه متقاطعة مكانيًا-زمانيًا جديدة (STC) مبتكرة. من الناحية الفنية، تقوم كتلة STC أولاً بقسمة الميزة المدخلة إلى جزأين متساويين على طول البُعد القناتي (channel dimension)، ثم تُطبّق الانتباه المكاني والزمني بشكل منفصل على كل جزء. بعد ذلك، تُمثّل التفاعلات بين المفاصل في إطار متساوٍ، وبين المفاصل التي تتبع نفس المسار الزمني في آنٍ واحد من خلال دمج مخرجات طبقات الانتباه. بناءً على هذا الأساس، نُصمم نموذج STCFormer من خلال تجميع عدة كتل STC، ونُدمج معه نوعًا جديدًا من التضمين المكاني-الزماني المُعزّز بالبنية (SPE) لمراعاة البنية الهيكلية للجسم البشري. يتكوّن دالة التضمين من مكونين: تحدّد التحويل المكاني-الزماني حول المفاصل المجاورة لالتقاط البنية المحلية، وتضمين مُدرك للجزء (part-aware embedding) لتحديد الجزء الذي ينتمي إليه كل مفصل. أجرينا تجارب واسعة على مجموعتي بيانات Human3.6M وMPI-INF-3DHP، وأظهرت النتائج تفوقًا ملحوظًا مقارنةً بأفضل الطرق المنشورة حاليًا. وبشكل أكثر إثارة، حقق نموذج STCFormer أفضل أداء منشور حتى الآن: خطأ P1 قدره 40.5 مم على مجموعة بيانات Human3.6M الصعبة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقدير وضع الإنسان الثلاثي الأبعاد باستخدام انتباه عابر مكاني-زمني | مستندات | HyperAI