DriveTransformer: تحويلة موحدة لقيادة السيارات ذاتية التحكم القابلة للتوسع بشكل نهائي

أصبح التوجيه الذاتي من الطرف إلى الطرف (E2E-AD) اتجاهًا بارزًا في مجال القيادة الذاتية، مع إمكانية تقديم نهج قائم على البيانات وقابل للتوسع في تصميم الأنظمة. ومع ذلك، تميل الطرق الحالية المبنية على E2E-AD إلى اعتماد نموذج تسلسلي يتضمن مراحل الاستشعار-التوقع-التخطيط، مما يؤدي إلى تراكم الأخطاء وعدم استقرار التدريب. كما أن الترتيب اليدوي للمهام يحد من قدرة النظام على الاستفادة من التآزر بين المهام (مثل الاستشعار المُدرك للتخطيط، والتوقع التفاعلي القائم على نظرية الألعاب والتخطيط المتكامل). علاوةً على ذلك، يُشكل التمثيل الكثيف للمساحة المُحورية (BEV) الذي تستخدمه الطرق الحالية تحديًا حسابيًا في مجالات الاستشعار على مسافات طويلة والتجميع الزمني على مدى طويل. وللتغلب على هذه التحديات، نقدّم "DriveTransformer"، إطار عمل مبسط للقيادة الذاتية من الطرف إلى الطرف يُسهّل التوسع، يتميز بثلاث خصائص رئيسية: التوافق المُوازي للمهام (حيث تتفاعل جميع الاستفسارات المتعلقة بالوكالات، والخرائط، والتخطيط مع بعضها البعض مباشرة في كل كتلة)، والتمثيل النادر (حيث تتفاعل استفسارات المهام مباشرة مع السمات الخام من المستشعرات)، والمعالجة المتسلسلة (حيث يتم تخزين واستمرار تمرير استفسارات المهام كمعلومات تاريخية). نتيجة لذلك، يتكون الإطار الجديد من ثلاث عمليات موحدة: الانتباه الذاتي للمهام، والانتباه المتقاطع بين الحساسات، والانتباه المتقاطع الزمني، مما يقلل بشكل كبير من تعقيد النظام ويُعزز استقرار التدريب. ويحقق DriveTransformer أداءً يُعدّ الأفضل في مجالات الحدود المُحاكاة (Bench2Drive) وبيئة الواقع المفتوحة (nuScenes) بسرعة عالية (FPS).