شكل ووضع اليد ثلاثي الأبعاد من الصور في البيئة الطبيعية

نقدم في هذا العمل أول طريقة قائمة على التعلم العميق من البداية إلى النهاية تتنبأ بشكل ووضع اليد ثلاثي الأبعاد من صور RGB في البيئة الطبيعية. يتكون شبكتنا من تجميع مُشفِّر عمقي متعدد الطبقات (Deep Convolutional Encoder) وفاكهة فك رمزي ثابتة تعتمد على النموذج (Fixed Model-Based Decoder). مع وجود صورة إدخال، وبشكل اختياري اكتشافات المفاصل ثنائية الأبعاد المستخرجة من شبكة عصبية مستقلة (CNN)، يتنبأ المُشفِّر بمجموعة من معلمات اليد والمنظور. يحتوي الفاكس فك الرمزي على مكونين: نموذج تشوه شبكي مفصل مُحسَّب مسبقًا يولد شكلًا ثلاثي الأبعاد من معلمات اليد، ووحدة إعادة الإسقاط التي يتم التحكم فيها بواسطة معلمات المنظور وتقوم بإسقاط اليد المنتجة في مجال الصورة. نوضح أن استخدام المعرفة السابقة عن الشكل والوضع المدمجة في نموذج اليد ضمن إطار التعلم العميق يؤدي إلى أداء رائد في تنبؤ وضع ثلاثي الأبعاد من الصور على مقاييس قياسية، وينتج إعادة بناء ثلاثية الأبعاد صالحة ومقبولة هندسيًا. بالإضافة إلى ذلك، نوضح أن التدريب باستخدام الإشراف الضعيف على شكل اكتشافات المفاصل ثنائية الأبعاد في قواعد بيانات الصور في البيئة الطبيعية، بالاشتراك مع الإشراف الكامل على شكل اكتشافات المفاصل ثلاثية الأبعاد في قواعد البيانات المتاحة بشكل محدود، يسمح بعمومية جيدة لتنبؤات الشكل والوضع الثلاثية الأبعاد على صور في البيئة الطبيعية.