HyperAIHyperAI
منذ 17 أيام

IQ-Learn: التعلم العكسي الناعم Q لمحاكاة السلوك

Divyansh Garg, Shuvam Chakraborty, Chris Cundy, Jiaming Song, Matthieu Geist, Stefano Ermon
IQ-Learn: التعلم العكسي الناعم Q لمحاكاة السلوك
الملخص

في العديد من مشكلات اتخاذ القرار التسلسلي (مثل التحكم في الروبوتات، لعب الألعاب، التنبؤ التسلسلي)، تتوفر بيانات بشرية أو خبراء تحتوي على معلومات مفيدة حول المهمة. ومع ذلك، يمكن أن تكون عملية التعلم بالمحاكاة (IL) من كمية صغيرة من البيانات الخبيرة تحديًا في البيئات عالية الأبعاد ذات الديناميكيات المعقدة. تُعد طريقة نسخ السلوك (Behavioral Cloning) طريقة بسيطة تُستخدم على نطاق واسع بفضل سهولة تنفيذها وتقاربها المستقر، لكنها لا تستخدم أي معلومات تتعلق بديناميكيات البيئة. تُعاني العديد من الطرق الحالية التي تستفيد من معلومات الديناميكيات من صعوبة التدريب عمليًا بسبب عملية التحسين التنافسي بين مُقربات المكافأة والسياسة، أو بسبب مُقدّرات المُشتقة المتحيزة والمتقلبة للغاية. نقدّم طريقة للتعلم بالمحاكاة المُدركة للديناميكيات، تتجنب التدريب التنافسي من خلال تعلُّم دالة Q واحدة، تمثل بشكل ضمني كلًا من المكافأة والسياسة. على معايير قياسية، تُظهر المكافآت المُتعلمة ضمنيًا ارتباطًا إيجابيًا عاليًا مع المكافآت الحقيقية، مما يدل على إمكانية استخدام طريقتنا أيضًا في التعلم بالمحاكاة العكسي (IRL). تحقق طريقتنا، المعروفة بـ "التعلم العكسي الناعم Q" (IQ-Learn)، نتائجًا رائدة في بيئات التعلم بالمحاكاة الساكنة (offline) والمتسلسلة (online)، وتتفوّق بشكل كبير على الطرق الحالية من حيث عدد التفاعلات المطلوبة مع البيئة، وكذلك في قابلية التوسع في الفضاءات عالية الأبعاد، غالبًا بأكثر من 3 أضعاف.

IQ-Learn: التعلم العكسي الناعم Q لمحاكاة السلوك | أحدث الأوراق البحثية | HyperAI