EPro-PnP: التقدير الاحتمالي النهائياً العام لمشكلة النقطة-ن-الاتجاه لتقدير وضع الجسم من منظور واحد

تحديد مواقع الأجسام ثلاثية الأبعاد من صورة RGB واحدة باستخدام طريقة النقطة-المنظر (PnP) يُعدّ مشكلة قديمة في رؤية الحاسوب. وقد دفعت الدراسات الحديثة، التي تعتمد على التعلم العميق من الطرف إلى الطرف، على تفسير PnP كطبقة قابلة للتفاضل، مما يسمح بتعلم جزئي للتوافق بين النقاط ثنائية وثلاثية الأبعاد من خلال تمرير التدرجات عبر وظيفة خسارة الوضعية. ومع ذلك، فإن تعلّم التوافق الكامل من الصفر يُعدّ تحديًا كبيرًا، خصوصًا في الحالات التي تكون فيها الحلول الوضعية غير محددة، حيث يكون الوضع الأمثل عالميًا غير قابل للتفاضل بالنسبة للنقاط. في هذه الورقة، نقترح EPro-PnP، وهي طبقة PnP احتمالية لتقدير الوضعية من الطرف إلى الطرف، وتُنتج توزيعًا للوضعية يحتوي على كثافة احتمالية قابلة للتفاضل على المنعطف SE(3). وتعتبر إحداثيات النقاط ثنائية وثلاثية الأبعاد، بالإضافة إلى الأوزان المرتبطة بها، متغيرات وسيطة تُتعلم عن طريق تقليل انحراف كولبوج-ليبلر (KL divergence) بين توزيع الوضعية المُنبَت والوضعية المستهدفة. ويعكس المبدأ الأساسي هذا التعميم لأساليب سابقة، ويشبه آلية الانتباه (attention mechanism). يمكن لـ EPro-PnP تعزيز الشبكات الحالية لتوافق النقاط، مما يقلل الفجوة بين الطرق القائمة على PnP والأساليب الرائدة المخصصة للمهمة في معيار التقدير الوضعية 6DoF على مجموعة بيانات LineMOD. علاوةً على ذلك، يُمكّن EPro-PnP من استكشاف إمكانيات جديدة في تصميم الشبكات، كما نُظهر شبكة تطابق مُنْحَرِفة (deformable correspondence network) جديدة تحقق دقة وضعية قياسية في معيار كشف الأجسام ثلاثية الأبعاد على مجموعة بيانات nuScenes. يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/tjiiv-cprg/EPro-PnP-v2.