منذ 19 ساعات

مسح حول نماذج الرؤية واللغة والحركة للقيادة الذاتية

Sicong Jiang, Zilin Huang, Kangan Qian, Ziang Luo, Tianze Zhu, Yang Zhong, Yihong Tang, Menglin Kong

الملخص

التقدم السريع في نماذج اللغات الكبيرة متعددة الوسائط (MLLM) قد فتح الطريق لمفاهيم التكامل بين الرؤية واللغة والفعل (VLA)، والتي تجمع بين الإدراك البصري، وفهم اللغة الطبيعية، والتحكم ضمن سياسة واحدة. يقوم الباحثون في مجال القيادة الذاتية بتبني هذه الأساليب بشكل نشط في نطاق المركبات. تعد هذه النماذج واعدة بمركبات ذاتية القيادة قادرة على تفسير التعليمات عالية المستوى، واستنتاج مشاهد المرور المعقدة، واتخاذ قراراتها الخاصة. ومع ذلك، فإن الأدبيات العلمية لا تزال مجزأة وتتوسع بسرعة. يقدم هذا الاستعراض أول نظرة شاملة لـ VLA في القيادة الذاتية (VLA4AD). نحن (أ) نحدد المكونات المعمارية المشتركة عبر الأعمال الحديثة، (ب) نتبع التطور من النماذج الأولى التي تعتمد على الشرح إلى النماذج المحورية حول الاستنتاج، و(ج) نقارن أكثر من 20 نموذجًا تمثيليًا بناءً على تقدم VLA في مجال القيادة الذاتية. كما نقوم بتجميع البيانات والمعايير القائمة، مع التركيز على البروتوكولات التي تقاس السلامة والأداء وجودة الشرح بشكل مشترك. أخيرًا، نفصل التحديات المفتوحة - مثل المتانة والكفاءة الزمنية والحوار الرسمي - ونحدد اتجاهات المستقبل لـ VLA4AD. يوفر هذا الاستعراض مرجعًا موجزًا ومعمقًا لتطوير المركبات ذاتية القيادة القابلة للتفسير والمتناسقة اجتماعيًا. يمكن الوصول إلى مستودع Github الخاص بهذا المشروع من خلال الرابط \href{this https URL}{SicongJiang/Awesome-VLA4AD}.