HyperAIHyperAI
منذ 3 أشهر

استرجاع شبكة اليد في فضاء الكاميرا من خلال التجميع الدلالي والتسجيل التكيفي ثنائي الأبعاد-أحادي البعد

Xingyu Chen, Yufeng Liu, Chongyang Ma, Jianlong Chang, Huayan Wang, Tian Chen, Xiaoyan Guo, Pengfei Wan, Wen Zheng
استرجاع شبكة اليد في فضاء الكاميرا من خلال التجميع الدلالي والتسجيل التكيفي ثنائي الأبعاد-أحادي البعد
الملخص

شهدت السنوات الأخيرة تقدماً ملحوظاً في استرداد شبكة اليد ثلاثية الأبعاد (3D hand mesh). ومع ذلك، وبسبب الغموض الداخلي الناتج عن التحويل من الصورة ثنائية الأبعاد إلى ثلاثية الأبعاد، يظل استرداد المعلومات ثلاثية الأبعاد في فضاء الكاميرا من صورة RGB واحدة أمرًا صعباً. ولحل هذه المشكلة، نقسم استرداد الشبكة في فضاء الكاميرا إلى مهام فرعية اثنتين: استرداد الشبكة بالنسبة للجذر (root-relative mesh recovery) واسترداد الجذر (root recovery). أولاً، نستخرج نقاط المفاصل والشكل الظلّي (silhouette) من صورة إدخال واحدة لتوفير أدلة ثنائية الأبعاد للمهام ثلاثية الأبعاد. في مهمة استرداد الشبكة بالنسبة للجذر، نستفيد من العلاقات الدلالية بين المفاصل لاستخلاص شبكة ثلاثية الأبعاد من الأدلة الثنائية الأبعاد المستخرجة. وتُعبّر الإحداثيات الثلاثية الأبعاد الناتجة عن هذا الاستخلاص عن موقعها بالنسبة لموقع الجذر، أي مفصل المعصم. وفي مهمة استرداد الجذر، يتم تسجيل موقع الجذر في فضاء الكاميرا من خلال محاذاة الشبكة ثلاثية الأبعاد المستخرجة مرة أخرى مع الأدلة الثنائية الأبعاد، وبالتالي إتمام استرداد الشبكة ثلاثية الأبعاد في فضاء الكاميرا. يُعدّ نهجنا متميزاً من حيث (1) استخدامه الصريح للعلاقات الدلالية المعروفة بين المفاصل، و(2) استغلاله للهياكل ذات البعد الواحد (1D projections) للشكل الظلّي والشبكة لتحقيق تسجيل قوي وموثوق. أظهرت التجارب الواسعة على مجموعات بيانات شهيرة مثل FreiHAND وRHD وHuman3.6M أن منهجنا يحقق أداءً متقدماً على مستوى الحد الأقصى (state-of-the-art) في كل من استرداد الشبكة بالنسبة للجذر واسترداد الجذر. يمكن الوصول إلى الشفرة المصدرية الخاصة بنا بشكل عام عبر الرابط: https://github.com/SeanChenxy/HandMesh.