HyperAIHyperAI

Command Palette

Search for a command to run...

V2V-PoseNet: شبكة التنبؤ من البكسل إلى البكسل لتقدير وضعية اليد والجسم ثلاثية الأبعاد بدقة من خريطة عمق واحدة

Gyeongsik Moon Ju Yong Chang Kyoung Mu Lee

الملخص

معظم الطرق الحالية القائمة على التعلم العميق لتقدير وضعية اليد والجسم البشري ثلاثي الأبعاد من خريطة عمق واحدة تعتمد على إطار عمل مشترك يأخذ خريطة العمق ثنائية الأبعاد ويقوم بترجيع إحداثيات النقاط الرئيسية ثلاثية الأبعاد مباشرة، مثل مفاصل اليد أو جسم الإنسان، عبر شبكات العصب الثنية ثنائية الأبعاد (CNNs). أول ضعف في هذا النهج هو وجود تشوه المنظور في خريطة العمق ثنائية الأبعاد. رغم أن خريطة العمق هي بيانات ثلاثية الأبعاد بطبيعتها، فإن العديد من الطرق السابقة تتعامل مع خرائط العمق كصور ثنائية الأبعاد يمكن أن تشوه شكل الجسم الفعلي عند الإسقاط من الفضاء ثلاثي الأبعاد إلى الفضاء ثنائي الأبعاد. وهذا يجبر الشبكة على أداء تقدير ثابت أمام تشوه المنظور. ثاني ضعف للنهج التقليدي هو أن ترجيع الإحداثيات ثلاثية الأبعاد مباشرة من صورة ثنائية الأبعاد هو تحويل غير خطي للغاية، مما يسبب صعوبة في عملية التعلم. لتجاوز هذه الضعف، نحول أولاً مشكلة تقدير وضعية اليد والجسم البشري ثلاثية الأبعاد من خريطة عمق واحدة إلى تنبؤ بكسل-بكسل يستخدم شبكة مكعبة ثلاثية الأبعاد ويقدر احتمالية كل نقطة رئيسية لكل بكسل. نصمم نموذجنا كشبكة عصبية مكعبة ثلاثية الأبعاد (3D CNN) توفر تقديرات دقيقة بينما تعمل بشكل فوري. نظامنا يتفوق على الطرق السابقة في معظم قواعد البيانات المتاحة علنًا لتقدير وضعية اليد والجسم البشري ثلاثي الأبعاد وحلّ في المركز الأول في تحدي تقدير وضعية اليد ثلاثي الأبعад القائم على الإطارات HANDS 2017. الرمز البرمجي متاح في https://github.com/mks0601/V2V-PoseNet_RELEASE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp