Command Palette
Search for a command to run...
ألبامايو-آر1: جسر بين الاستنتاج والتنبؤ بالسلوك لتحقيق القيادة الذاتية القابلة للتوسع في الذيل الطويل
ألبامايو-آر1: جسر بين الاستنتاج والتنبؤ بالسلوك لتحقيق القيادة الذاتية القابلة للتوسع في الذيل الطويل
Abstract
الهياكل النهائية إلى النهائية التي تم تدريبها باستخدام التعلم بالمحاكاة قد دفعت بتطوير القيادة الذاتية من خلال توسيع حجم النموذج وكمية البيانات، إلا أن أداؤها ما زال هشًا في السيناريوهات الطويلة والنادرة الحرجة من حيث السلامة، حيث تكون الإشراف محدودًا والفهم السببي محدودًا أيضًا. ولحل هذه المشكلة، نقدّم نموذج Alpamayo-R1 (AR1)، وهو نموذج بصري-لغوي-إجراء (VLA) يدمج التفكير المتسلسل السببي مع تخطيط المسارات لتعزيز اتخاذ القرار في السيناريوهات المعقدة للقيادة. يتميز نهجنا بثلاثة ابتكارات رئيسية: (1) مجموعة بيانات التفكير المتسلسل السببي (Chain of Causation - CoC)، التي تم بناؤها عبر نموذج هجين يجمع بين التسمية التلقائية وتدخل الإنسان، ويُنتج سلسلة من التفكير المرتبطة بالسببية والمستندة إلى القرارات، ومُتماشية مع السلوكيات القيادة؛ (2) بنية VLA قابلة للتركيب، تجمع بين نموذج Cosmos-Reason، وهو نموذج بصري-لغوي مُدرّب مسبقًا على تطبيقات الذكاء الاصطناعي الفيزيائي، مع مشفر مسارات مبني على التشتت (diffusion-based trajectory decoder) الذي يُولّد خططًا قابلة للتنفيذ ديناميكيًا في الزمن الحقيقي؛ (3) استراتيجية تدريب متعددة المراحل تستخدم التدريب المُعدّل بالإشراف لاستخلاص التفكير، وتستخدم التعلم بالتعزيز (RL) لتحسين جودة التفكير من خلال ملاحظات نموذج التفكير الكبير، وضمان التماسك بين التفكير والإجراء. أظهرت النتائج أن AR1 حقق تحسنًا يصل إلى 12% في دقة التخطيط في الحالات الصعبة مقارنةً بنموذج يعتمد فقط على المسار، مع تقليل معدل الخروج عن الطريق بنسبة 35%، وتقليل معدل الاقتراب الشديد من المخاطر بنسبة 25% في بيئة محاكاة مغلقة الدائرة. كما أدى التدريب اللاحق بالتعلم بالتعزيز إلى تحسين جودة التفكير بنسبة 45% وفقًا لتقييم نموذج تفكير كبير، وتحسّن التماسك بين التفكير والإجراء بنسبة 37%. وظّهرت تحسينات متسقة عند توسيع النموذج من 0.5 مليار إلى 7 مليارات معلمة. وتم تأكيد الأداء في الزمن الحقيقي (تأخير 99 مللي ثانية) خلال اختبارات ميدانية على المركبات، مع نجاح التنفيذ في البيئات الحضرية. وبربط التفكير القابل للتفسير بالتحكم الدقيق، يُظهر AR1 طريقًا عمليًا نحو تحقيق القيادة الذاتية من الدرجة الرابعة. ونخطط لطرح نماذج AR1 ونُسخة مختارة من مجموعة بيانات CoC في تحديث لاحق.