كشف ثلاثي الأبعاد للكائنات من منظور مفرد مُدرك للسطح للقيادة الذاتية

تقدير الموضع والاتجاه ثلاثي الأبعاد للأجسام في البيئة باستخدام كاميرا RGB واحدة هو مهمة بالغة الأهمية والصعوبة بالنسبة للقيادة الذاتية الحضرية منخفضة التكلفة والروبوتات المتنقلة. تعتمد معظم الخوارزميات الحالية على القيود الهندسية في التوافق بين الأبعاد 2D و3D، والتي تنشأ من تقدير الوضع الستي للجسم بشكل عام. نحن أولًا نحدد كيف توفر الأرضية معلومات إضافية في استنتاج العمق ضمن الكشف ثلاثي الأبعاد في مشاهد القيادة. استنادًا إلى هذه الملاحظة، نقوم بتحسين معالجة المفاتيح ثلاثية الأبعاد (3D anchors) ونُقدّم وحدة شبكة عصبية جديدة للاستفادة الكاملة من هذه المعرفة المسبقة الخاصة بالتطبيق ضمن إطار التعلم العميق. في النهاية، نُقدّم شبكة عصبية فعالة مدمجة بالوحدة المُقترحة للكشف عن الأجسام ثلاثية الأبعاد. كما نتحقق من قوة الوحدة المقترحة باستخدام شبكة عصبية مصممة لتقدير العمق من منظور واحد. حققت الشبكتان المُقترحتان أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art) في معايير كشف الأجسام ثلاثية الأبعاد وتقدير العمق على مجموعة بيانات KITTI، على التوالي. سيتم نشر الشفرة على الرابط: https://www.github.com/Owen-Liuyuxuan/visualDet3D