MonoUNI: شبكة كشف ثلاثية الأبعاد للأشياء ذات منظور واحد موحدة للمركبات والبنية التحتية مع تلميحات عمق كافية

تمثّل الكشف ثلاثي الأبعاد باستخدام كاميرا واحدة عن المركبات والبنية التحتية موضوعين مهمين في القيادة الذاتية. وبسبب التنوّع في تركيب الحساسات وطول البؤرة، يواجه الباحثون تحديًا في بناء خوارزميات لهذه المواضيع استنادًا إلى معرفة مسبقة مختلفة. في هذه الورقة، وبأخذ التنوّع في زوايا الميل وطول البؤرة بعين الاعتبار، نقترح هدفًا موحدًا للتحسين يُسمّى "العمق القياسي"، والذي يحقق التوحيد لمشاكل الكشف ثلاثي الأبعاد بالنسبة لكلا الجانبين. علاوةً على ذلك، لتعزيز دقة الكشف ثلاثي الأبعاد باستخدام كاميرا واحدة، نطوّر مفهوم "العمق الثلاثي القياسي للمكعب" للعوائق، بهدف تعزيز تعلّم معلومات العمق. نفترض أن غنى معلومات العمق هو عامِلٌ حاسمٌ يؤثر على أداء الكشف من جهة المركبات ومن جهة البنية التحتية. فكلما زادت مجموعة مؤشرات العمق، زادت قدرة النموذج على تعلّم المعرفة المكانية الجيدة، ويوفر "العمق الثلاثي القياسي للمكعب" مجموعة كافية من مؤشرات العمق. تُظهر التجارب الواسعة فعالية النهج المُقترح. وبلا إدخال أي معلومات إضافية، تحقق طريقةنا، المُسمّاة MonoUNI، أداءً متفوّقًا على مستوى الحالة الحالية في خمسة معايير شائعة للكشف ثلاثي الأبعاد باستخدام كاميرا واحدة، تشمل Rope3D وDAIR-V2X-I من جهة البنية التحتية، وKITTI وWaymo من جهة المركبات، وnuScenes لتقييم عبر مجموعات بيانات مختلفة.