HyperAIHyperAI
منذ 2 أشهر

دراسة واسعة النطاق للتعلم المستند إلى الفضول

Yuri Burda; Harri Edwards; Deepak Pathak; Amos Storkey; Trevor Darrell; Alexei A. Efros
دراسة واسعة النطاق للتعلم المستند إلى الفضول
الملخص

خوارزميات التعلم بالتعزيز تعتمد على تصميم دقيق للمكافآت البيئية التي تكون خارجية بالنسبة للوكيل. ومع ذلك، فإن وضع مكافآت كثيفة ومصممة يدويًا لكل بيئة ليس قابلًا للتوسع، مما يحفز الحاجة إلى تطوير وظائف مكافأة تكون داخلية بالنسبة للوكيل. الفضول هو نوع من وظائف المكافأة الداخلية التي تستخدم خطأ التنبؤ كإشارة مكافأة. في هذا البحث:(أ) نقوم بأول دراسة واسعة النطاق لتعلم محركه بالفضول تمامًا، أي بدون أي مكافآت خارجية، عبر 54 بيئة مقاييس قياسية، بما في ذلك مجموعة ألعاب Atari. تظهر نتائجنا أداءً مفاجئًا جيدًا، ودرجة عالية من التطابق بين الهدف الداخلي للفضول والمكافآت الخارجية المصممة يدويًا لبيئات العديد من الألعاب.(ب) ندرس تأثير استخدام فضاءات ميزات مختلفة لحساب خطأ التنبؤ ونظهر أن الميزات العشوائية تكون كافية لمعظم المقاييس القياسية لألعاب التعلم بالتعزيز الشائعة، ولكن الميزات المستفادة تبدو أنها تعمم بشكل أفضل (مثل إلى مستويات جديدة في لعبة Super Mario Bros (سوبر ماريو بروس)).(ج) نوضح حدود المكافآت القائمة على التنبؤ في الإعدادات العشوائية. يمكن الوصول إلى مقاطع الفيديو الخاصة بلعب الألعاب والكود في https://pathak22.github.io/large-scale-curiosity/