PoseNet3D: تعلّم الوضعية البشرية ثلاثية الأبعاد المستقرة زمنيًا من خلال التبليغ المعرفي

استعادة الوضعية ثلاثية الأبعاد للإنسان من المفاصل ثنائية الأبعاد تمثل مشكلة غير محددة بشكل كبير. نقترح إطارًا جديدًا للشبكة العصبية يُسمى PoseNet3D، يأخذ المفاصل ثنائية الأبعاد كمدخلات ويُنتج هياكل ثلاثية الأبعاد وبارامترات نموذج الجسم SMPL. من خلال صياغة منهجنا التعلمي ضمن إطار تدريس الطالب والمعلم، نتجنب استخدام أي بيانات ثلاثية الأبعاد مثل البيانات المزدوجة أو غير المزدوجة، أو تسلسلات التقاط الحركة، أو صور العمق، أو الصور من زوايا متعددة أثناء التدريب. نبدأ بتدريب شبكة المعلم التي تُنتج هياكل ثلاثية الأبعاد، باستخدام فقط الوضعيات ثنائية الأبعاد في التدريب. ثم تقوم شبكة المعلم بنقل معرفتها إلى شبكة الطالب التي تتوقع الوضعية ثلاثية الأبعاد باستخدام تمثيل SMPL. في النهاية، يتم تحسين كلا الشبكتين معًا بطريقة متسلسلة (end-to-end) باستخدام خسائر زمنية، وثبات ذاتي، وخصائص مضادة (adversarial losses)، مما يُحسّن دقة كل شبكة على حدة. تُظهر النتائج على مجموعة بيانات Human3.6M لاستنتاج الوضعية ثلاثية الأبعاد للإنسان أن منهجنا يقلل من خطأ توقع المفاصل ثلاثية الأبعاد بنسبة 18% مقارنة بالطرق غير المراقبة السابقة. كما تُظهر النتائج الكمية على مجموعات بيانات من البيئات الحقيقية (in-the-wild) أن الوضعيات ثلاثية الأبعاد والشبكات المسترجعة تكون طبيعية وواقعية، وتتدفق بسلاسة عبر الإطارات المتتالية.