مُقيِّم اقتراح الموضع: تحسين موضع موثوق من خلال تعلُّم أخطاء إعادة العرض

في السنوات الأخيرة، تم إحراز تقدم كبير في مهمة تحديد وضع الأجسام الصلبة من صورة RGB واحدة، لكن تحقيق المرونة تجاه الاختناقات الجزئية يظل مشكلةً صعبة. وقد أظهرت طريقة تحسين الوضع من خلال التصوير (rendering) إمكانات واعدة لتحقيق نتائج محسّنة، خصوصًا عندما تكون البيانات نادرة.في هذه الورقة، نركّز اهتمامنا على تحسين الوضع، ونُظهر كيف يمكننا دفع حدود الأداء الحالي إلى أبعد من ذلك في حالات الاختناقات الجزئية. تعتمد الطريقة المقترحة لتحسين الوضع على مهمة تعلم مبسطة، حيث يتم تدريب شبكة عصبية متعددة الطبقات (CNN) على تقدير خطأ إعادة التصوير بين صورة مُلاحظة وصورة مُنتجة بواسطة التصوير. قمنا بتجريب التدريب على بيانات صناعية فقط، وكذلك على مزيج من البيانات الصناعية والواقعية. وقد تفوقت النتائج على أحدث النتائج المنشورة في معيار اختبار Occlusion LINEMOD بالنسبة لاثنين من ثلاث قياسات، بينما حافظت على أداء مماثل في القياس الأخير.