منذ 8 أيام
التعلم القوي الخالي من النموذج من الطرف إلى الطرف للقيادة الحضرية باستخدام الإمكانيات الضمنية
Marin Toromanoff, Emilie Wirbel, Fabien Moutarde

الملخص
تهدف التعلم المعزز (RL) إلى تعلُّم سياسة سلوكية مثلى من خلال التجارب الذاتية، وليس من خلال أساليب التحكم القائمة على القواعد. ومع ذلك، لا توجد حتى الآن خوارزمية تعلم معزز قادرة على التعامل مع مهمة صعبة مثل القيادة في المناطق الحضرية. نقدّم تقنية جديدة تُسمّى "الإمكانيات الضمنية" (implicit affordances)، والتي تُستخدم بشكل فعّال لتمكين التعلم المعزز من أداء المهام المرتبطة بالقيادة الحضرية، بما في ذلك الحفاظ على الوضع في المسار، وتجنّب المشاة والمركبات، وتحديد إشارات المرور. إلى حد علمنا، نحن أول فريق نُقدّم وكيلًا ناجحًا للتعلم المعزز يُنفّذ مهمة معقدة كهذه، خصوصًا فيما يتعلق بتحديد إشارات المرور. علاوةً على ذلك، أثبتنا فعالية منهجنا من خلال الفوز بمسار "الكاميرا فقط" في تحدي CARLA.