TransFuser: تقليد باستخدام دمج الحواس بأساس الترانسفورمر للقيادة الذاتية

كيف يمكننا دمج التمثيلات من أجهزة الاستشعار المكملة لقيادة السيارات ذاتية القيادة؟ أثبتت الطريقة الهندسية للدمج فعاليتها في مجال الإدراك (مثل كشف الأشياء، التنبؤ بالحركة). ومع ذلك، في سياق القيادة من النهاية إلى النهاية، نجد أن التعلم التقليدي المستند إلى طرق الدمج الحالية ي perform تحت المستوى في السيناريوهات القيادية المعقدة التي تحتوي على كثافة عالية من الوكلاء الديناميين. لذلك، نقترح TransFuser، وهو آلية لدمج تمثيلات الصور و LiDAR باستخدام انتباه الذات. تستخدم طريقة الدمج الخاصة بنا وحدات transformer بمختلف الدقائق لدمج خرائط الميزات من وجهة النظر المنظورية والرؤية العلوية. قمنا بتجربة فعالية هذه الطريقة على معيار جديد صعب يحتوي على مسارات طويلة وكثافة مرورية عالية، وكذلك على قائمة الترتيب الرسمية لمحاكي القيادة الحضري CARLA. في وقت التقديم، حقق TransFuser تفوقًا كبيرًا على جميع الأعمال السابقة في قائمة CARLA الرسمية من حيث درجة القيادة. مقارنةً بالدمج الهندسي، يقلل TransFuser من عدد الاصطدامات المتوسط لكل كيلومتر بنسبة 48%.