HyperAIHyperAI
منذ 2 أشهر

تعلم القيادة من عالم على السكك الحديدية

Dian Chen; Vladlen Koltun; Philipp Krähenbühl
تعلم القيادة من عالم على السكك الحديدية
الملخص

نتعلم سياسة قيادة تفاعلية تعتمد على الرؤية من سجلات القيادة المسجلة مسبقًا عبر نهج مستند إلى النموذج. يقوم نموذج تقدمي للعالم بتدقيق سياسة القيادة التي تتوقع نتيجة أي مسار محتمل للقيادة. لدعم التعلم من السجلات المسجلة مسبقًا، نفترض أن العالم على قضبان، مما يعني أن الوكيل أو أفعاله لا تؤثر على البيئة. هذا الافتراض يبسط المشكلة التعليمية بشكل كبير، حيث يتم تقسيم الديناميكيات إلى نموذج عالم غير متفاعل ونموذج تقدمي ذي بعد منخفض ومدمج للمركبة الذاتية (الإيجو-مركبة). يستخدم نهجنا قيم الأفعال لكل مسار تدريبي باستخدام تقييم البرمجة الديناميكية الجدولية لمعادلات بيلمان؛ وهذه قيم الأفعال بدورها تشرف على السياسة النهائية القائمة على الرؤية للقيادة. رغم افتراض العالم على القضبان، فإن السياسة النهائية للقيادة تعمل بشكل جيد في عالم ديناميكي ومتفاعل. في وقت كتابة هذه السطور، تحتل طريقتنا المركز الأول في قائمة CARLA، حيث تحصل على درجة قيادة أعلى بنسبة 25٪ مع استخدام بيانات أقل بأربعين مرة. كما أن طريقتنا أكثر كفاءة بمقدار عشرين ضعفًا من تقنيات التعلم التعزيزي بدون نموذج الأكثر تقدمًا في مهام التنقل ضمن معيار ProcGen.

تعلم القيادة من عالم على السكك الحديدية | أحدث الأوراق البحثية | HyperAI