شبكة التحسين المحورية المُعززة للكشف عن الأشياء ثلاثية الأبعاد من خلال الكاميرا أحادية العدسة

الكشف عن الأشياء ثلاثية الأبعاد باستخدام كاميرا واحدة يهدف إلى استخراج موقع وخصائص الأشياء ثلاثية الأبعاد من صورة إدخال ثنائية الأبعاد. هذه مشكلة غير محددة بشكل جيد، حيث تكمن الصعوبة الرئيسية في فقدان المعلومات بواسطة الكاميرات التي لا تعرف العمق. النهج التقليدية تقوم بأخذ عينات من الصناديق الحدودية ثلاثية الأبعاد من الفضاء واستنتاج العلاقة بين الجسم المستهدف وكل منها، ومع ذلك فإن احتمالية الحصول على عينات فعالة نسبيًا صغيرة في الفضاء ثلاثي الأبعاد. لتحسين كفاءة أخذ العينات، نقترح بدء العملية بتوقع أولي وتحسينه تدريجيًا نحو الحقيقة الأرضية، مع تغيير معلمة ثلاثية الأبعاد واحدة فقط في كل خطوة. هذا يتطلب تصميم سياسة تحصل على مكافأة بعد عدة خطوات، ولذلك نعتمد التعلم التعزيزي لتحسينها. الإطار المقترح، شبكة التحسين المحورية المدعومة (Reinforced Axial Refinement Network - RAR-Net)، يعمل كمرحلة ما بعد المعالجة يمكن دمجها بحرية في طرق الكشف عن الأجسام ثلاثية الأبعاد باستخدام كاميرا واحدة الموجودة حاليًا، مما يحسن الأداء على مجموعة بيانات KITTI مع تكاليف حسابية إضافية قليلة.