البصريات العميقة لتقدير العمق الأحادي واكتشاف الكائنات ثلاثية الأبعاد

التقدير العميق وكشف الأشياء ثلاثية الأبعاد أمران حاسميان لفهم المشهد، لكنهما يظلان تحديًا عند العمل مع صورة واحدة بسبب فقدان المعلومات ثلاثية الأبعاد أثناء التقاط الصورة. قد أظهرت النماذج الحديثة التي تستخدم الشبكات العصبية العميقة تحسينات في أداء التقدير العميق الأحادي البؤرة، ولكن لا يزال هناك صعوبة في التنبؤ بالعمق المطلق وفي التعميم خارج مجموعة بيانات قياسية. هنا نقدم مفهوم البصريات العميقة، أي تصميم البصريات ومعالجة الصور من البداية إلى النهاية، لمشكلة التقدير العميق الأحادي البؤرة، باستخدام الضبابية غير المحددة (coded defocus blur) كإشارة عمق إضافية يتم فك شفرتها بواسطة شبكة عصبية. نقيم عدة استراتيجيات ترميز بصرية مع نظام تحسين من البداية إلى النهاية للتقدير العميق على ثلاثة مجموعات بيانات، بما في ذلك NYU Depth v2 و KITTI. نجد أن تصميم العدسة الحرة المُحسَّن يحقق أفضل النتائج، لكن التشوه اللوني للعدسة الفردية يقدم أيضًا تحسنًا كبيرًا في الأداء. نقوم ببناء نموذج بدني ونؤكد أن التشوهات اللونية تحسن تقدير العمق في النتائج الواقعية. بالإضافة إلى ذلك، نقوم بتدريب شبكات كشف الأشياء على مجموعة بيانات KITTI ونوضح أن العدسة المُحسَّنة للتقدير العميق تؤدي أيضًا إلى تحسن في أداء كشف الأشياء ثلاثية الأبعاد.