HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم القيادة من عالم على السكك الحديدية

Dian Chen Vladlen Koltun Philipp Krähenbühl

الملخص

نتعلم سياسة قيادة تفاعلية تعتمد على الرؤية من سجلات القيادة المسجلة مسبقًا عبر نهج مستند إلى النموذج. يقوم نموذج تقدمي للعالم بتدقيق سياسة القيادة التي تتوقع نتيجة أي مسار محتمل للقيادة. لدعم التعلم من السجلات المسجلة مسبقًا، نفترض أن العالم على قضبان، مما يعني أن الوكيل أو أفعاله لا تؤثر على البيئة. هذا الافتراض يبسط المشكلة التعليمية بشكل كبير، حيث يتم تقسيم الديناميكيات إلى نموذج عالم غير متفاعل ونموذج تقدمي ذي بعد منخفض ومدمج للمركبة الذاتية (الإيجو-مركبة). يستخدم نهجنا قيم الأفعال لكل مسار تدريبي باستخدام تقييم البرمجة الديناميكية الجدولية لمعادلات بيلمان؛ وهذه قيم الأفعال بدورها تشرف على السياسة النهائية القائمة على الرؤية للقيادة. رغم افتراض العالم على القضبان، فإن السياسة النهائية للقيادة تعمل بشكل جيد في عالم ديناميكي ومتفاعل. في وقت كتابة هذه السطور، تحتل طريقتنا المركز الأول في قائمة CARLA، حيث تحصل على درجة قيادة أعلى بنسبة 25٪ مع استخدام بيانات أقل بأربعين مرة. كما أن طريقتنا أكثر كفاءة بمقدار عشرين ضعفًا من تقنيات التعلم التعزيزي بدون نموذج الأكثر تقدمًا في مهام التنقل ضمن معيار ProcGen.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp