كشف الأشياء ثلاثية الأبعاد باستخدام كاميرا واحدة للقيادة المستقلة

يهدف هذا البحث إلى إجراء كشف الكائنات ثلاثية الأبعاد في صور مونوكولار واحدة ضمن مجال القيادة الذاتية. تسعى طريقة البحث أولاً إلى إنشاء مجموعة من اقتراحات الكائنات الخاصة بالفئات، والتي تُمرّر لاحقًا عبر مسار معياري يعتمد على الشبكة العصبية التلافيفية (CNN) للحصول على كشفات عالية الجودة للكائنات. وتركّز هذه الورقة على توليد الاقتراحات. وبشكل خاص، نقترح نموذجًا احتماليًا يُحدّد مواقع اقتراحات الكائنات في الفضاء ثلاثي الأبعاد باستخدام معرفة مسبقة عن المستوى الأرضي. ثم نُقيّم كل صندوق اقتراح بعد إسقاطه على مستوى الصورة من خلال عدة دوال مُتَوَقِّعة بديهية، مثل تقسيم المعنى البصري، والمعلومات السياقية، والمقاييس والاتجاهات المسبقة للموقع، وشكل الكائنات الشائعة. وتُدرّس أوزان النموذج باستخدام خوارزمية S-SVM. وتُظهر التجارب أن منهجية توليد اقتراحات الكائنات التي نقترحها تتفوّق بشكل ملحوظ على جميع الطرق البديلة المبنية على الصور المونوكولار، وتحقيق أفضل أداء في الكشف ضمن معيار KITTI الصعب، بين جميع المنافسين المبنين على الصور المونوكولار المنشورين.