تعلم القيادة من عالم على السكك الحديدية

نتعلم سياسة قيادة تفاعلية تعتمد على الرؤية من سجلات القيادة المسجلة مسبقًا عبر نهج مستند إلى النموذج. يقوم نموذج تقدمي للعالم بتدقيق سياسة القيادة التي تتوقع نتيجة أي مسار محتمل للقيادة. لدعم التعلم من السجلات المسجلة مسبقًا، نفترض أن العالم على قضبان، مما يعني أن الوكيل أو أفعاله لا تؤثر على البيئة. هذا الافتراض يبسط المشكلة التعليمية بشكل كبير، حيث يتم تقسيم الديناميكيات إلى نموذج عالم غير متفاعل ونموذج تقدمي ذي بعد منخفض ومدمج للمركبة الذاتية (الإيجو-مركبة). يستخدم نهجنا قيم الأفعال لكل مسار تدريبي باستخدام تقييم البرمجة الديناميكية الجدولية لمعادلات بيلمان؛ وهذه قيم الأفعال بدورها تشرف على السياسة النهائية القائمة على الرؤية للقيادة. رغم افتراض العالم على القضبان، فإن السياسة النهائية للقيادة تعمل بشكل جيد في عالم ديناميكي ومتفاعل. في وقت كتابة هذه السطور، تحتل طريقتنا المركز الأول في قائمة CARLA، حيث تحصل على درجة قيادة أعلى بنسبة 25٪ مع استخدام بيانات أقل بأربعين مرة. كما أن طريقتنا أكثر كفاءة بمقدار عشرين ضعفًا من تقنيات التعلم التعزيزي بدون نموذج الأكثر تقدمًا في مهام التنقل ضمن معيار ProcGen.