VNect: تقدير وضعية الجسم البشري ثلاثي الأبعاد في الوقت الفعلي باستخدام كاميرا RGB واحدة

نقدم أول طريقة في الوقت الفعلي لتقاطع الوضع العظمي الشامل ثلاثي الأبعاد للإنسان بطريقة مستقرة ومتسقة زمنياً باستخدام كاميرا RGB واحدة. تجمع طريقتنا بين مُقدر وضع عظمي جديد يستند إلى شبكة عصبية تقنية التلافيف (CNN) وطريقة مطابقة الهيكل الحركي. يُقدر صياغتنا الجديدة للوضع العظمي بالكامل والمبنية على التلافيف مواقع المفاصل ثنائية الأبعاد وثلاثية الأبعاد بشكل مشترك وفي الوقت الفعلي، ولا تتطلب إطارات مدخل محكمة التقريب. تستخدم طريقة مطابقة الهيكل الحركي في الوقت الفعلي الإخراج من CNN لإنتاج إعادة بناء الوضع العظمي الشامل ثلاثي الأبعاد بشكل مستقر زمنياً على أساس هيكل حركي متماسك. هذا يجعل نهجنا هو أول طريقة RGB أحادية العدسة قابلة للاستخدام في التطبيقات الفعلية مثل تحكم الشخصية ثلاثية الأبعاد---حتى الآن، كانت الطرق أحادية العدسة الوحيدة لهذه التطبيقات تعتمد على كاميرات RGB-D المتخصصة. دقة طريقتنا معتمدة كمياً على قدم المساواة مع أفضل الطرق غير الفعلية لأستقراء الوضع العظمي ثلاثي الأبعاد أحادي العدسة RGB. نتائجنا نوعياً مقارنة بنتائج الطرق أحادية العدسة RGB-D، مثل Kinect، وأحياناً أفضل منها. ومع ذلك، نظهر أن نهجنا أكثر انتشاراً من حلول RGB-D، أي أنه يعمل للمشاهد الخارجية، مقاطع الفيديو المجتمعية، والكاميرات.RGB منخفضة الجودة.