MonoDETR: Transformer موجه بالعمق للكشف عن الأشياء ثلاثية الأبعاد من خلال كاميرا واحدة

اكتشاف الكائنات ثلاثية الأبعاد من خلال كاميرا واحدة (Monocular 3D Object Detection) كان لفترة طويلة مهمة صعبة في مجال القيادة الذاتية. تعتمد معظم الأساليب الحالية على المكتشفات ثنائية الأبعاد التقليدية لتحديد مواقع مراكز الكائنات أولاً، ثم التنبؤ بالخصائص ثلاثية الأبعاد باستخدام الخصائص المجاورة. ومع ذلك، فإن استخدام الخصائص البصرية المحلية فقط غير كافٍ لفهم الهياكل الفضائية ثلاثية الأبعاد على مستوى المشهد ويتجاهل العلاقات العميقة بين الكائنات على مدى بعيد. في هذا البحث، نقدم الإطار الأولي لـ DETR لمكتشفة الكائنات من خلال كاميرا واحدة مع تحويل عمق (Depth-guided Transformer)، والذي أطلقنا عليه اسم MonoDETR. قمنا بتعديل المتحول الأساسي ليكون واعيًا للعمق ونرشده في عملية الاكتشاف بأكملها باستخدام مؤشرات العمق السياقية. بشكل خاص، إلى جانب المُشفِّر البصري الذي يلتقط مظهر الكائنات، قدمنا تقنية لتوقع خريطة العمق الأمامية وأخصصنا مُشفِّر عمق لاستخراج تضمينات عمق غير محلية. بعد ذلك، صاغنا مرشحات الكائنات ثلاثية الأبعاد كاستعلامات قابلة للتعلم واقترحنا محول فك التشفير بمرشد العمق لإجراء تفاعلات عمق بين الكائن والمشهد. بهذه الطريقة، يقدر كل استعلام لكائن الثلاثي الأبعاد خصائصه الثلاثية الأبعاد بطريقة متكيفة من المناطق التي يوجهها العمق في الصورة ولا يعود مقيدًا بالخصائص البصرية المحلية. على مجموعة بيانات KITTI مع صور من كاميرا واحدة كمدخل، حقق MonoDETR أفضل أداء حاليًا ولا يتطلب أي توضيحات عميقة إضافية. بالإضافة إلى ذلك، يمكن دمج وحداتنا التي تعمل بمرشد العمق بشكل سهل مع مكتشفات الكائنات ثلاثية الأبعاد متعددة الزوايا في مجموعة بيانات nuScenes لتعزيز أدائها، مما يدل على قدرتنا الفائقة على التعميم. الرمز البرمجي متاح على الرابط:https://github.com/ZrrSkywalker/MonoDETR.