منذ 17 أيام

IQ-Learn: التعلم العكسي الناعم Q لمحاكاة السلوك

Divyansh Garg, Shuvam Chakraborty, Chris Cundy, Jiaming Song, Matthieu Geist, Stefano Ermon

الملخص

في العديد من مشكلات اتخاذ القرار التسلسلي (مثل التحكم في الروبوتات، لعب الألعاب، التنبؤ التسلسلي)، تتوفر بيانات بشرية أو خبراء تحتوي على معلومات مفيدة حول المهمة. ومع ذلك، يمكن أن تكون عملية التعلم بالمحاكاة (IL) من كمية صغيرة من البيانات الخبيرة تحديًا في البيئات عالية الأبعاد ذات الديناميكيات المعقدة. تُعد طريقة نسخ السلوك (Behavioral Cloning) طريقة بسيطة تُستخدم على نطاق واسع بفضل سهولة تنفيذها وتقاربها المستقر، لكنها لا تستخدم أي معلومات تتعلق بديناميكيات البيئة. تُعاني العديد من الطرق الحالية التي تستفيد من معلومات الديناميكيات من صعوبة التدريب عمليًا بسبب عملية التحسين التنافسي بين مُقربات المكافأة والسياسة، أو بسبب مُقدّرات المُشتقة المتحيزة والمتقلبة للغاية. نقدّم طريقة للتعلم بالمحاكاة المُدركة للديناميكيات، تتجنب التدريب التنافسي من خلال تعلُّم دالة Q واحدة، تمثل بشكل ضمني كلًا من المكافأة والسياسة. على معايير قياسية، تُظهر المكافآت المُتعلمة ضمنيًا ارتباطًا إيجابيًا عاليًا مع المكافآت الحقيقية، مما يدل على إمكانية استخدام طريقتنا أيضًا في التعلم بالمحاكاة العكسي (IRL). تحقق طريقتنا، المعروفة بـ "التعلم العكسي الناعم Q" (IQ-Learn)، نتائجًا رائدة في بيئات التعلم بالمحاكاة الساكنة (offline) والمتسلسلة (online)، وتتفوّق بشكل كبير على الطرق الحالية من حيث عدد التفاعلات المطلوبة مع البيئة، وكذلك في قابلية التوسع في الفضاءات عالية الأبعاد، غالبًا بأكثر من 3 أضعاف.