HiP-AD: تخطيط متعدد المستويات ومتعدد الدقة مع انتباه قابل للتشوه للقيادة الذاتية في مشفرة واحدة

على الرغم من التقدم الكبير الذي أحرزته تقنيات القيادة الذاتية من الطرف إلى الطرف (E2E-AD) في السنوات الأخيرة، تظل الأداء غير مرضٍ عند تقييمها في بيئة مغلقة الإغلاق (closed-loop). لم يتم استغلال الإمكانات الكاملة لاستخدام التخطيط في تصميم الاستفسارات والتفاعل بشكل كامل حتى الآن. في هذا البحث، نقدّم تمثيلًا متعدد المقاييس للأسئلة التخطيطية، يدمج نقاط توقف متنوعة (waypoints) غير متجانسة، بما في ذلك نقاط توقف فضائية وزمنية وأسلوب قيادة مختلفة، عبر أنماط عينة متنوعة. يوفر هذا التمثيل مراقبة إضافية للتنبؤ بالمسار، مما يعزز التحكم الدقيق في المركبة ذاتية القيادة (ego vehicle) ضمن بيئة مغلقة. علاوةً على ذلك، نستخدم بشكل صريح الخصائص الهندسية لمسارات التخطيط لاسترجاع ميزات الصورة ذات الصلة بناءً على المواقع الفيزيائية باستخدام الانتباه القابل للتشويه (deformable attention). وبدمج هذه الاستراتيجيات، نقترح إطارًا جديدًا للقيادة الذاتية من الطرف إلى الطرف يُسمى HiP-AD، والذي يُنفّذ التعرف البصري، والتنبؤ، والتخطيط في وقت واحد ضمن مُفكّك (decoder) موحد. يتيح HiP-AD تفاعلًا شاملاً من خلال السماح لأسئلة التخطيط بالتفاعل التكراري مع أسئلة التعرف البصري في الفضاء المكاني-المنظور (BEV)، مع استخراج ميزات صور ديناميكية من منظورات منظورية (perspective views) بشكل متزامن. تُظهر التجارب أن HiP-AD يتفوّق على جميع الطرق الحالية للقيادة الذاتية من الطرف إلى الطرف في معيار التقييم المغلق Bench2Drive، ويحقق أداءً تنافسيًا على مجموعة بيانات العالم الحقيقي nuScenes.