GRI: التعلم المُعزَّز العام وتطبيقاته في القيادة الذاتية القائمة على الرؤية

أثبتت تقنيات التعلم العميق المعزز (DRL) فعاليتها في العديد من التطبيقات المعقدة لصنع القرار، مثل القيادة الذاتية والروبوتات. ومع ذلك، تعاني DRL من مشكلتين رئيسيتين هما التعقيد العيني العالي وعدم الاستقرار. غالبًا ما تكون المعرفة السابقة متاحة، مثل توضيحات الخبراء، ولكن من الصعب استغلالها للتخفيف من هذه المشكلات. في هذا البحث، نقترح طريقة جديدة تسمى التعلم المعزز العام بالتقليد (GRI)، والتي تجمع بين مزايا الاستكشاف وبيانات الخبراء وهي سهلة التنفيذ على أي خوارزمية تعلم معزز خارج السياسة (off-policy RL). نفترض فرضية بسيطة واحدة: يمكن اعتبار توضيحات الخبراء بيانات مثالية حيث تحصل السياسة الكامنة وراءها على مكافأة ثابتة عالية. بناءً على هذا الافتراض، يُدخل GRI مفهوم وكلاء التقديم غير المتصلين بالشبكة (offline demonstration agents). يقوم هذا الوكيل بإرسال بيانات الخبير التي يتم معالجتها بشكل متوازي وغير قابل للتمييز مع التجارب القادمة من وكيل الاستكشاف للتعلم المعزز المتصل بالشبكة (online RL exploration agent). نظهر أن أسلوبنا يمكّن من تحقيق تحسينات كبيرة في القيادة الذاتية القائمة على الرؤية في البيئات الحضرية. كما نقوم بتأكيد صحة طريقة GRI على مهام التحكم المستمر في Mujoco باستخدام خوارزميات مختلفة للتعلم المعزز خارج السياسة. حازت طريقتنا على المركز الأول في قائمة CARLA وأفضلت النهج السابق الأكثر تقدمًا "World on Rails" بنسبة 17%.