HyperAIHyperAI
منذ 2 أشهر

التعلم التعزيزي القائم على النماذج لألعاب آتاري

Lukasz Kaiser; Mohammad Babaeizadeh; Piotr Milos; Blazej Osinski; Roy H Campbell; Konrad Czechowski; Dumitru Erhan; Chelsea Finn; Piotr Kozakowski; Sergey Levine; Afroz Mohiuddin; Ryan Sepassi; George Tucker; Henryk Michalewski
التعلم التعزيزي القائم على النماذج لألعاب آتاري
الملخص

يمكن استخدام التعلم التعزيزي بدون نماذج (RL) لتعلم سياسات فعالة للمهام المعقدة، مثل ألعاب آتاري، حتى من خلال ملاحظات الصور. ومع ذلك، فإن هذا عادة ما يتطلب كميات كبيرة جدًا من التفاعل - في الواقع، أكثر بكثير مما يحتاجه الإنسان لتعلم نفس الألعاب. كيف يمكن للأشخاص أن يتعلموا بسرعة كبيرة؟ قد يكون جزءًا من الإجابة هو أن الناس يمكنهم تعلم كيفية عمل اللعبة وتوقع أي الإجراءات ستؤدي إلى نتائج مرغوبة. في هذه الورقة البحثية، نستكشف كيف يمكن لنماذج التنبؤ بالفيديو تمكين الوكلاء من حل ألعاب آتاري بمعدل تفاعلات أقل من طرق التعلم التعزيزي بدون نماذج. نصف خوارزمية التعلم التعزيزي المبنية على النماذج (SimPLe)، وهي خوارزمية تعليم تعزيزي عميقة قائمة على نماذج التنبؤ بالفيديو، ونقدم مقارنة بين عدة هياكل نموذجية، بما في ذلك هيكل جديد يحقق أفضل النتائج في إعدادنا. تقيّم تجاربنا SimPLe على مجموعة متنوعة من ألعاب آتاري في نظام بيانات قليل يبلغ 100 ألف تفاعل بين الوكيل والبيئة، وهو ما يعادل ساعتين من اللعب الفعلي. في معظم الألعاب، تتفوق SimPLe على الخوارزميات الرائدة بدون نماذج بأكثر من درجة واحدة.