إعادة بناء اليد ثلاثية الأبعاد القائمة على النموذج من خلال التعلم ذاتي التوجيه

إعادة بناء اليد ثلاثية الأبعاد من صورة RGB ذات منظور واحد أمرٌ صعب نظرًا لتعدد تكوينات اليد والغموض المرتبط بالعمق. ولإعادة بناء اليد ثلاثية الأبعاد بشكل موثوق من صورة مونوكولار، تعتمد معظم الطرق الحديثة الأكثر تقدمًا بشكل كبير على التسميات ثلاثية الأبعاد أثناء مرحلة التدريب، لكن الحصول على هذه التسميات ثلاثية الأبعاد مكلف للغاية. ولتقليل الاعتماد على بيانات التدريب المُعلَّمة، نقترح S2HAND، وهو شبكة لإعادة بناء اليد ثلاثية الأبعاد ذاتية التعلم، التي تستطيع تقدير وضعية اليد، وشكلها، ونسيجها، ووجهة الكاميرا بشكل مشترك. وبشكل خاص، نحصل على مؤشرات هندسية من الصورة المدخلة من خلال نقاط المفتاح الثنائية الأبعاد التي يمكن اكتشافها بسهولة. وللتعلم نموذجًا دقيقًا لإعادة بناء اليد ثلاثية الأبعاد من هذه المؤشرات الهندسية الضوضائية، نستخدم الاتساق بين التمثيلات الثنائية والثلاثية الأبعاد، ونُقدِّم مجموعة من الخسائر المبتكرة لتحسين نتائج الشبكة العصبية. لأول مرة، نُظهر إمكانية تدريب شبكة لإعادة بناء اليد ثلاثية الأبعاد بدقة دون الاعتماد على التسميات اليدوية. تُظهر تجاربنا أن الطريقة المقترحة تحقق أداءً مماثلًا للطرق الحديثة التي تعتمد على التعلم الكامل المُعلَّم، مع استخدام كمية أقل من البيانات المُعلَّمة.