السعر: تعلم التخطيط من الصور الخام لقيادة السيارات ذاتية القيادة بالكامل

بينما تظهر نماذج القيادة الذاتية من الطرف إلى الطرف نتائج واعدة، فإن تطبيقها العملي غالبًا ما يعاني من حجم النموذج الكبير، والاعتماد على أجهزة استشعار ليزر (LiDAR) باهظة الثمن، وتمثيلات ميزات BEV (Bird's Eye View) التي تستهلك موارد حسابية كبيرة. هذا يحد من قابليتها للتوسع، خاصة بالنسبة للمركبات في السوق الجماهيري التي تمتلك فقط كاميرات. لحل هذه التحديات، نقترح PRIX (التخطيط من الصور الخام). إن معمارية القيادة الذاتية من الطرف إلى الطرف الجديدة والفعالة التي نقترحها تعمل فقط باستخدام بيانات الكاميرا، دون تمثيل صريح لـ BEV، وتفتقر إلى الحاجة إلى ليزر (LiDAR). تستخدم PRIX مُستخرجًا للميزة البصرية مزودًا بجزء تخطيطي توليدية لتوقع مسارات آمنة مباشرة من الإدخالات الخام للصورة. أحد المكونات الأساسية في معماريتنا هو وحدة CaRT (Transformer لإعادة تقييم السياق)، وهي وحدة جديدة تم تصميمها لتعزيز ميزات بصريّة متعددة المستويات بشكل فعّال، مما يزيد من قوة التخطيط. نُظهر من خلال تجارب شاملة أن PRIX تحقق أداءً من الدرجة الأولى في معايير NavSim وnuScenes، وتتفوق على مخطّطات التوزيع متعددة الوسائط الأكبر حجمًا من حيث الكفاءة في سرعة الاستنتاج وحجم النموذج، مما يجعلها حلًا عمليًا للاستخدام في البيئات الواقعية. إن عملنا مفتوح المصدر، ويمكن الوصول إلى الكود عبر الرابط التالي: https://maxiuw.github.io/prix.