HyperAIHyperAI

Command Palette

Search for a command to run...

مسح حول نماذج الرؤية واللغة والحركة للقيادة الذاتية

Sicong Jiang Zilin Huang Kangan Qian Ziang Luo Tianze Zhu Yang Zhong Yihong Tang Menglin Kong

الملخص

التقدم السريع في نماذج اللغات الكبيرة متعددة الوسائط (MLLM) قد فتح الطريق لمفاهيم التكامل بين الرؤية واللغة والفعل (VLA)، والتي تجمع بين الإدراك البصري، وفهم اللغة الطبيعية، والتحكم ضمن سياسة واحدة. يقوم الباحثون في مجال القيادة الذاتية بتبني هذه الأساليب بشكل نشط في نطاق المركبات. تعد هذه النماذج واعدة بمركبات ذاتية القيادة قادرة على تفسير التعليمات عالية المستوى، واستنتاج مشاهد المرور المعقدة، واتخاذ قراراتها الخاصة. ومع ذلك، فإن الأدبيات العلمية لا تزال مجزأة وتتوسع بسرعة. يقدم هذا الاستعراض أول نظرة شاملة لـ VLA في القيادة الذاتية (VLA4AD). نحن (أ) نحدد المكونات المعمارية المشتركة عبر الأعمال الحديثة، (ب) نتبع التطور من النماذج الأولى التي تعتمد على الشرح إلى النماذج المحورية حول الاستنتاج، و(ج) نقارن أكثر من 20 نموذجًا تمثيليًا بناءً على تقدم VLA في مجال القيادة الذاتية. كما نقوم بتجميع البيانات والمعايير القائمة، مع التركيز على البروتوكولات التي تقاس السلامة والأداء وجودة الشرح بشكل مشترك. أخيرًا، نفصل التحديات المفتوحة - مثل المتانة والكفاءة الزمنية والحوار الرسمي - ونحدد اتجاهات المستقبل لـ VLA4AD. يوفر هذا الاستعراض مرجعًا موجزًا ومعمقًا لتطوير المركبات ذاتية القيادة القابلة للتفسير والمتناسقة اجتماعيًا. يمكن الوصول إلى مستودع Github الخاص بهذا المشروع من خلال الرابط \href{this https URL}{SicongJiang/Awesome-VLA4AD}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp