LatentVLA: نماذج استنتاج لأتمتة القيادة
طورت شركة بحثية نموذجًا جديدًا للقيادة الذاتية يُدعى LatentVLA، وهو يهدف إلى تحسين عملية اتخاذ القرار دون الاعتماد على اللغة الطبيعية كما يفعل نماذج أخرى مثل AlpamayoR1. بينما يعتمد النموذج السابق على مجموعات بيانات ضخمة ومكلفة لتدريب النموذج على "السببية" عبر النصوص، يعترض فريق LatentVLA على هذه الطريقة، معتبرين أن اللغة الطبيعية بطيئة وقد لا تكون الأنسب للتفاعلات العاجلة في القيادة، كما أن توليد سلاسل سببية نصية يستهلك موارد حاسوبية غير ضرورية. يعتمد LatentVLA على إطار عمل ذاتي الإشراف يتنبأ بما يسمونه "أفعال كامنة" في مساحة ضمنية، مما يسمح للنموذج بالتعلم من بيانات القيادة الخام غير المصنفة. تعتمد هذه الآلية على بنية تسمى "التعلم بدون أفعال" (LAPO)، حيث تستخدم محولًا للتمثيل (إنكودر-ديكودر) للتنبؤ بمتجه عمل مستمر بناءً على إطارين متتاليين من الفيديو. ولجعل هذا التمثيز متوافقًا مع نماذج الرؤية والذكاء الاصطناعي، تم تحويل المتجهات المستمرة إلى رموز منفصلة باستخدام تقنية تسمى VQ-VAE، مما يعني أن النموذج يتعلم قاموسًا محدودًا من الأفعال المنفصلة التي تمثل قرارات القيادة. لكي يميز النموذج بين تأثير سائق السيارة والعوامل البيئية المحيطة (مثل طائر يعبر الطريق)، صمم الباحثون هيكلًا مكونًا من مرحلتين. في المرحلة الأولى، يتنبأ النموذج بـ "تأثيرات بيئية" بناءً على بيانات ديناميكية للمركبة، وفي المرحلة الثانية، يتنبأ بـ "أفعال ذاتية" ترتبط فقط بتصرفات السائق، مما يضمن فصل تأثير السائق عن تغيرات البيئة بدقة. بعد تعلم هذه التمثيزات الكامنة، يتم تدريب نموذج رؤية وذكاء اصطناعي (Qwen2.5-VL) على التنبؤ بهذه الأفعال الكامنة نفسها عبر تقنية تسمى "تقطير المعرفة". نقطة قوة فريدة في هذا التصميم هي استخدام قاموس ضخم للأفعال يبلغ 2048 رمزًا في نماذج أخرى مقابل 16 رمزًا فقط في LatentVLA. هذا التبسيط يجعل المهمة التعليمية أسهل للنموذج الأكبر، ويسمح له بالتركيز على توجيهات قيادة عليا المستوى مثل "تسريع بسيط" أو "انعطاف يمين ضيق" بدلاً من الزوايا الدقيقة، مما يحافظ على المعرفة التي تلقاها مسبقًا دون الحاجة لتعلم آلاف الكلمات الجديدة. للحفاظ على الأداء الفوري الضروري للقيادة، لا يُستخدم النموذج الضخم مباشرة أثناء التشغيل، بل يتم تدريب نموذج أصغر بكثير (50 مليون معامل) لمحاكاة سلوك النموذج الكبير، مما يقلل التكلفة الحاسوبية بشكل كبير. عند الاختبار على مجموعة بيانات NavSim التي تتضمن ملايين إطارات القيادة الواقعية، حققت النماذج المدمجة مع LatentVLA نتائج قياسية في تقييمات التخطيط المفتوح، حيث تحسنت النقاط بدرجة طفيفة لكنها ملحوظة مقارنة بالنماذج التقليدية. ومع ذلك، يشير المقال إلى أن هذه التقييمات تعتمد على محاكاة "مفتوحة الحلقة"، حيث تتوقع السيارة مسارها دون تفاعل حقيقي مع البيئة أو المركبات الأخرى، وهو ما قد لا يعكس قدراتها الحقيقية. في السيناريوهات الواقعية الديناميكية، قد تكون قدرات الاستدلال الكامنة التي يقدمها LatentVLA أكثر فاعلية في تصحيح المسار وتصعيد الأخطاء الصغيرة. الخلاصة هي أن LatentVLA يمثل نهجًا مبتكرًا لدمج الذكاء الصريح في أنظمة القيادة دون ضوضاء اللغة الطبيعية، لكنه يحتاج إلى تقييمات أكثر شمولاً في بيئات تفاعلية حقيقية لإثبات فاعليته الكاملة.
