HyperAIHyperAI
منذ 2 أشهر

Simple-BEV: ما الذي يهم حقًا في إدراك الرؤية من الأعلى باستخدام المستشعرات المتعددة؟

Harley, Adam W. ; Fang, Zhaoyuan ; Li, Jie ; Ambrus, Rares ; Fragkiadaki, Katerina
Simple-BEV: ما الذي يهم حقًا في إدراك الرؤية من الأعلى باستخدام المستشعرات المتعددة؟
الملخص

بناء أنظمة الإدراك ثلاثية الأبعاد للمركبات ذاتية القيادة التي لا تعتمد على أجهزة الليدار عالية الكثافة هو مشكلة بحثية حاسمة بسبب تكلفة أجهزة الليدار مقارنة بالكاميرات及其他传感器。最近的研究开发了多种仅使用摄像头的方法,其中特征从多摄像头图像中可微分地“提升”到二维地面平面,从而生成车辆周围三维空间的“俯视图”(BEV)特征表示。这一研究方向已经产生了一系列新颖的“提升”方法,但我们观察到训练设置中的其他细节也在同时发生变化,这使得顶级性能方法的关键因素变得不明确。我们还观察到,仅使用摄像头并不是现实世界的限制条件,考虑到雷达等附加传感器已经被整合到实际车辆中多年。在这篇论文中,我们首先试图阐明在BEV感知模型的设计和训练协议中的高影响力因素。我们发现批量大小和输入分辨率对性能有重大影响,而提升策略的影响则较为温和——即使是一个简单的无参数提升器也能表现良好。其次,我们证明雷达数据可以显著提高性能,有助于缩小仅使用摄像头系统与配备LiDAR系统的差距。我们分析了导致良好性能的雷达使用细节,并邀请社区重新考虑这个通常被忽视的传感器平台部分。ترجمة:بناء أنظمة الإدراك ثلاثية الأبعاد للمركبات ذاتية القيادة التي لا تعتمد على أجهزة الليدار عالية الكثافة هو مشكلة بحثية حاسمة بسبب تكلفة أجهزة الليدار مقارنةً بالكاميرات والمستشعرات الأخرى. قام البحث الحديث بتطوير مجموعة متنوعة من الأساليب التي تعتمد فقط على الكاميرات، حيث يتم رفع الخصائص بشكل قابل للمفاضلة من صور الكاميرات المتعددة إلى المستوى الأرضي ثنائي الأبعاد، مما ينتج عنه تمثيل خاصيات "النظرة الطائر" (BEV) للمساحة ثلاثية الأبعاد حول المركبة. أدت هذه المسار البحثي إلى إنتاج مجموعة متنوعة من أساليب الرفع الجديدة، ولكننا نلاحظ أن التفاصيل الأخرى في إعدادات التدريب قد تغيرت في نفس الوقت، مما يجعل الأمر غير واضح ما الذي يهم حقًا في الأساليب ذات الأداء العالي. كما نلاحظ أن استخدام الكاميرات وحدها ليس قيدًا حقيقيًا في العالم، مع الأخذ في الاعتبار أن المستشعرات الإضافية مثل الرادار قد تم دمجها في المركبات الحقيقية لسنوات عديدة.في هذا البحث، نحاول أولاً توضيح العوامل المؤثرة بشكل كبير في تصميم بروتوكولات تدريب نماذج الإدراك BEV. لقد اكتشفنا أن حجم الدفعة ودقة المدخلات يؤثران بشكل كبير على الأداء، بينما يكون تأثير استراتيجيات الرفع أكثر اعتدالاً - حتى رافع بسيط بدون معلمات يعمل بشكل جيد. ثانيًا، نثبت أن بيانات الرادار يمكن أن توفر زيادة كبيرة في الأداء، مما يساعد في تقليص الفجوة بين النظم التي تعتمد فقط على الكاميرات والأنظمة المزودة بأجهزة الليدار. نحلل التفاصيل المتعلقة باستخدام الرادار التي تقود إلى أداء جيد، وندعو المجتمع العلمي لإعادة النظر في هذا الجزء من المنصة المستشعرية الذي يتم تجاهله غالبًا.

Simple-BEV: ما الذي يهم حقًا في إدراك الرؤية من الأعلى باستخدام المستشعرات المتعددة؟ | أحدث الأوراق البحثية | HyperAI