I2L-MeshNet: شبكة تنبؤ من الصورة إلى الليكسل لتقدير دقيق لوضعية الإنسان ثلاثية الأبعاد وشبكة الشكل من صورة RGB واحدة

تُقدّم معظم الطرق السابقة لاستخراج موضع الإنسان ثلاثي الأبعاد ونموذج الشبكة (mesh) بناءً على الصور تقدير 매ارمترات نموذج الشبكة البشرية من صورة إدخال. ومع ذلك، فإن التقدير المباشر للبارامترات من صورة الإدخال يُعدّ تطبيقًا خطيًا غير خطي للغاية، لأنه يُعطل العلاقة المكانية بين البكسلات في صورة الإدخال. بالإضافة إلى ذلك، لا يمكنه نمذجة عدم اليقين في التنبؤ، مما قد يُعقّد عملية التدريب. ولحل هذه المشكلات، نقترح I2L-MeshNet، وهي شبكة تنبؤ من الصورة إلى "ليكسل" (Line+Pixel). تقوم I2L-MeshNet المقترحة بتقدير احتمالية كل "ليكسل" على خرائط حرارة أحادية البعد لكل إحداثي رؤوس الشبكة، بدلاً من التقدير المباشر للبارامترات. تُحافظ خرائط الحرارة ذات الأبعاد الواحدة القائمة على "ليكسل" على العلاقة المكانية في صورة الإدخال، وتمكّن من نمذجة عدم اليقين في التنبؤ. ونُظهر فوائد التنبؤ من الصورة إلى "ليكسل"، ونُثبت أن I2L-MeshNet المقترحة تتفوّق على الطرق السابقة. تم إتاحة الشفرة المصدرية بشكل عام عبر الرابط التالي: https://github.com/mks0601/I2L-MeshNet_RELEASE.