HyperAIHyperAI
منذ 7 أيام

محول اندماج متعدد الوسائط للقيادة الذاتية من البداية إلى النهاية

Aditya Prakash, Kashyap Chitta, Andreas Geiger
محول اندماج متعدد الوسائط للقيادة الذاتية من البداية إلى النهاية
الملخص

كيف ينبغي دمج تمثيلات المستشعرات المكملة لتطبيقات القيادة الذاتية؟ أظهر دمج المستشعرات القائم على الهندسة وعدة إمكانات كبيرة في مهام الاستشعار مثل كشف الكائنات وتوقع الحركة. ومع ذلك، في المهام الحقيقية للقيادة، فإن السياق العالمي للمنظر ثلاثي الأبعاد يُعدّ عنصراً محورياً، فمثلاً، يمكن أن يؤثر تغيّر حالة إشارة المرور على سلوك مركبة تبعد هندسياً عن تلك الإشارة. وبالتالي، قد يصبح التمثيل الهندسي وحده غير كافٍ لدمج التمثيلات بكفاءة في النماذج المدمجة للقيادة. في هذه الدراسة، نُظهر أن السياسات القائمة على التعلم بالتقليد والتي تعتمد على أساليب دمج المستشعرات الحالية تُظهر أداءً ضعيفاً في وجود كثافة عالية من الوكلاء الديناميين والسيناريوهات المعقدة، والتي تتطلب تفكيراً سياقياً شاملاً، مثل التعامل مع حركة المرور القادمة من اتجاهات متعددة عند تقاطعات غير مُنظَّمة. ولذلك، نقترح "ترانسفوزر" (TransFuser)، وهو نموذج جديد لدمج البيانات متعددة الوسائط باستخدام مُحول (Transformer) يعتمد على الانتباه، لدمج تمثيلات الصور وبيانات الليدار. ونُحقّق تأكيداً تجريبياً لفعالية نهجنا في البيئات الحضرية المعقدة باستخدام مُحاكي قيادة المدن CARLA. ويُحقق نهجنا أداءً قياسياً في القيادة، مع تقليل عدد الحوادث بنسبة 76% مقارنةً بطرق الدمج القائمة على الهندسة.