V2V-PoseNet: شبكة التنبؤ من البكسل إلى البكسل لتقدير وضعية اليد والجسم ثلاثية الأبعاد بدقة من خريطة عمق واحدة

معظم الطرق الحالية القائمة على التعلم العميق لتقدير وضعية اليد والجسم البشري ثلاثي الأبعاد من خريطة عمق واحدة تعتمد على إطار عمل مشترك يأخذ خريطة العمق ثنائية الأبعاد ويقوم بترجيع إحداثيات النقاط الرئيسية ثلاثية الأبعاد مباشرة، مثل مفاصل اليد أو جسم الإنسان، عبر شبكات العصب الثنية ثنائية الأبعاد (CNNs). أول ضعف في هذا النهج هو وجود تشوه المنظور في خريطة العمق ثنائية الأبعاد. رغم أن خريطة العمق هي بيانات ثلاثية الأبعاد بطبيعتها، فإن العديد من الطرق السابقة تتعامل مع خرائط العمق كصور ثنائية الأبعاد يمكن أن تشوه شكل الجسم الفعلي عند الإسقاط من الفضاء ثلاثي الأبعاد إلى الفضاء ثنائي الأبعاد. وهذا يجبر الشبكة على أداء تقدير ثابت أمام تشوه المنظور. ثاني ضعف للنهج التقليدي هو أن ترجيع الإحداثيات ثلاثية الأبعاد مباشرة من صورة ثنائية الأبعاد هو تحويل غير خطي للغاية، مما يسبب صعوبة في عملية التعلم. لتجاوز هذه الضعف، نحول أولاً مشكلة تقدير وضعية اليد والجسم البشري ثلاثية الأبعاد من خريطة عمق واحدة إلى تنبؤ بكسل-بكسل يستخدم شبكة مكعبة ثلاثية الأبعاد ويقدر احتمالية كل نقطة رئيسية لكل بكسل. نصمم نموذجنا كشبكة عصبية مكعبة ثلاثية الأبعاد (3D CNN) توفر تقديرات دقيقة بينما تعمل بشكل فوري. نظامنا يتفوق على الطرق السابقة في معظم قواعد البيانات المتاحة علنًا لتقدير وضعية اليد والجسم البشري ثلاثي الأبعاد وحلّ في المركز الأول في تحدي تقدير وضعية اليد ثلاثي الأبعад القائم على الإطارات HANDS 2017. الرمز البرمجي متاح في https://github.com/mks0601/V2V-PoseNet_RELEASE.