HyperAIHyperAI

Command Palette

Search for a command to run...

LaRa: الكامنات والأشعة لتقسيم الدلالات البصرية من منظور الطائر في أنظمة الكاميرات المتعددة

Florent Bartoccioni Éloi Zablocki Andrei Bursuc Patrick Pérez Matthieu Cord Karteek Alahari

الملخص

الدراسات الحديثة في مجال القيادة الذاتية اعتمدت بشكل واسع على الخريطة الدلالية من منظور الطائر (BEV) كتمثيل متوسط للعالم. يتضمن التنبؤ الفوري لهذه الخرائط BEV عمليات غير بسيطة مثل استخراج البيانات من الكاميرات المتعددة بالإضافة إلى دمجها وإسقاطها على شبكة رؤية علوية مشتركة. يتم هذا عادةً باستخدام عمليات هندسية معرضة للأخطاء (مثل التجانس أو الإسقاط العكسي لتقدير العمق الأحادي) أو من خلال تعيين كثيف مباشر ومكلف بين البكسلات في الصورة والبكسلات في BEV (مثل استخدام الشبكات العصبية متعددة الطبقات MLP أو الانتباه). في هذه الدراسة، نقدم 'LaRa'، وهو نموذج فعال يعتمد على المُشفر والمُفكك (encoder-decoder) والمتحول (transformer) لفصل المعاني للمركبات من الكاميرات المتعددة. يستخدم نهجنا نظامًا من الانتباه المتبادل لتجميع المعلومات عبر المستشعرات المتعددة في مجموعة مدمجة ومعقدة من التمثيلات الكامنة. ثم يتم إعادة إسقاط هذه التمثيلات الكامنة، بعد معالجتها بواسطة سلسلة من كتل الانتباه الذاتي، باستخدام انتباه متبادل ثانٍ في الفضاء BEV. نثبت أن نموذجنا يتفوق على أفضل الأعمال السابقة التي استخدمت المتحولات (transformers) على nuScenes. الرمز البرمجي والنماذج المدربة متاحة على https://github.com/valeoai/LaRa


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp