XNect: التقاط حركة ثلاثية الأبعاد في الوقت الحقيقي لعدة أشخاص باستخدام كاميرا RGB واحدة

نقدم نهجًا في الوقت الفعلي لتقاطع حركة ثلاثية الأبعاد لعدة أشخاص بمعدل يزيد عن 30 إطارًا في الثانية باستخدام كاميرا واحدة من نوع RGB. يعمل هذا النهج بنجاح في مشاهد عامة قد تحتوي على إخفاءات بسبب الأشياء وبسبب الأشخاص الآخرين. يتكون نهجانا من مراحل متتابعة. المرحلة الأولى هي شبكة عصبية تلافيفية (CNN) تقوم بتقدير خصائص الوضع ثنائية وثلاثية الأبعاد مع تعيين الهوية لكل المفاصل المرئية لجميع الأفراد. نسهم بتصميم جديد لهذه الشبكة العصبية التلافيفية، والذي نطلق عليه اسم SelecSLS Net، يستخدم اتصالات قفزة طويلة وقصيرة اختيارية جديدة لتحسين تدفق المعلومات، مما يسمح بشبكة أسرع بكثير دون المساس بالدقة. في المرحلة الثانية، تقوم شبكة عصبية متصلة تمامًا بتحويل الخصائص ثنائية وثلاثية الأبعاد للوضع (وقد تكون جزئية بسبب الإخفاء) لكل موضوع إلى تقدير كامل للوضع ثلاثي الأبعاد لكل فرد. أما المرحلة الثالثة فتطبق مطابقة نموذج الهيكل العظمي الزماني-المكاني على الوضع المتوقع ثنائي وثلاثي الأبعاد لكل موضوع لتوفير مزيد من المصالحة بين الوضع ثنائي وثلاثي الأبعاد، ولضمان التجانس الزمني. يعيد نهجانا إنتاج وضع الهيكل العظمي الكامل بزوايا المفاصل لكل موضوع. وهذا يعتبر تميزًا رئيسيًا آخر عن الأعمال السابقة التي لا تنتج نتائج زوايا المفاصل لنظام هيكل عظمي متجانس في الوقت الفعلي للمشاهد المتعددة الشخصيات. يعمل النظام المقترح على أجهزة المستهلك بمعدل سرعة غير مسبوق يزيد عن 30 إطارًا في الثانية عند استخدام صور بدقة 512x320 كمدخلات، مع تحقيق دقة رائدة في مجالها، والتي سنقوم بإثباتها على مجموعة من المشاهد الحقيقية الصعبة.