EPro-PnP: تعميم النقطة-الن-نقطة الاحتمالية النهائية-إلى-النهائية لتقدير وضع الجسم الأحادي العدسة

تحديد مواقع الأجسام ثلاثية الأبعاد من صورة RGB واحدة عبر طريقة PnP (نقطة-من-منظر) يُعد مشكلة قديمة في رؤية الحاسوب. وقد دفع التعلم العميق المتكامل دراسات حديثة إلى تفسير PnP كطبقة قابلة للتفاضل، بحيث يمكن تعلُّم أزواج المطابقة بين النقاط 2D و3D جزئيًا من خلال تمرير التدرج بالنسبة إلى وضع الجسم (pose) عكسيًا. ومع ذلك، يفشل تعلُّم مجموعة كاملة من النقاط 2D-3D غير المقيدة من الصفر باستخدام الطرق الحالية في الاقتراب من التقارب، وذلك لأن وضع الجسم المحدد (deterministic) لا يمكن تفاضله بشكل طبيعي. في هذا البحث، نقترح EPro-PnP، وهي طبقة PnP احتمالية لتقدير الوضع النهائية (end-to-end) بشكل عام، والتي تُخرِج توزيعًا لوضع الجسم على المانيفولد المستمر SE(3)، وتعتبر في جوهرها تعميمًا لعملية Softmax الفئوية إلى المجال المستمر. تُعامل إحداثيات النقاط 2D-3D والمعاملات المرتبطة بها كمتغيرات وسيطة تُتعلَّم من خلال تقليل تباين كولبومر-ليبلر (KL divergence) بين توزيع وضع الجسم المُقدَّر ووزن الوضع المستهدف. إن المبدأ الكامن وراء هذا النهج يوحِّد الطرق السابقة ويُشبه آلية الانتباه (attention mechanism). ويُظهر EPro-PnP أداءً متفوّقًا بشكل كبير مقارنة بالأساليب التنافسية، ويُقلّص الفجوة بين الطرق القائمة على PnP والأساليب الرائدة المخصصة للمهمة على معايير التقييم الخاصة بتحديد وضع الجسم 6DoF في مجموعة بيانات LineMOD، وتحديد الكائنات ثلاثية الأبعاد في مجموعة بيانات nuScenes.