تعلم الالتفافات الموجهة بالعمق للكشف عن الأشياء ثلاثية الأبعاد من خلال الكاميرا الواحدة

كشف الأشياء ثلاثية الأبعاد من صورة واحدة دون استخدام LiDAR هو مهمة صعبة بسبب نقص المعلومات الدقيقة عن العمق. تعتبر التحويلات ثنائية الأبعاد التقليدية غير مناسبة لهذه المهمة لأنها لا تتمكن من التقاط معلومات الكائن المحلي وحجمه، وهي عناصر حاسمة لكشف الأشياء ثلاثية الأبعاد. لتمثيل الهيكل ثلاثي الأبعاد بشكل أفضل، تستخدم الدراسات السابقة عادةً تحويل الخرائط العمقية المقدرة من الصور ثنائية الأبعاد إلى تمثيل شبه LiDAR، ثم تطبق كاشفات الكائنات القائمة على السحابة النقطية ثلاثية الأبعاد. ومع ذلك، تعتمد نتائج هذه الطرق بشكل كبير على دقة الخرائط العمقية المقدرة، مما يؤدي إلى أداء غير مثالي. في هذا العمل، بدلاً من استخدام التمثيل شبه LiDAR، نحسن التحويلات الكاملة ثنائية الأبعاد الأساسية من خلال اقتراح شبكة محلية جديدة للتحويلات المكانية (LCN)، والتي تُعرف بـ D$^4$LCN (شبكة D$^4$LCN الموجهة بالعمق والديناميكية والممتدة). في هذه الشبكة، يمكن تعلم المرشحات ومجالاتها المستقبلية تلقائيًا من خرائط العمق المستندة إلى الصور، مما يجعل البكسل المختلفة للصور المختلفة لديها مرشحات مختلفة. يتجاوز D$^4$LCN قيود التحويلات ثنائية الأبعاد التقليدية ويضيق الفجوة بين تمثيل الصورة وتمثيل السحابة النقطية ثلاثية الأبعاد. تظهر التجارب الواسعة أن D$^4$LCN يتفوق على الأعمال الحالية بمargins كبيرة. على سبيل المثال، يحقق D$^4$LCN تحسينًا نسبيًا بنسبة 9.1٪ مقابل أفضل ما وصل إليه العلم حتى الآن على مجموعة بيانات KITTI في الإعداد المتوسط. يمكن الوصول إلى الكود عبر الرابط: https://github.com/dingmyu/D4LCN.