HyperAIHyperAI
منذ 2 أشهر

استكشاف واعٍ بالظروف العارضة في التعلم التعزيزي

Jongwook Choi; Yijie Guo; Marcin Moczulski; Junhyuk Oh; Neal Wu; Mohammad Norouzi; Honglak Lee
استكشاف واعٍ بالظروف العارضة في التعلم التعزيزي
الملخص

تستكشف هذه الورقة البحثية ما إذا كان تعلم الوعي بالظروف والجوانب القابلة للتحكم في البيئة يمكن أن يؤدي إلى استكشاف أفضل في تعلم التعزيز. لبحث هذا السؤال، نعتبر تجسيدًا لهذا الفرض يتم تقييمه على عنصر التعلم الأركيد (ALE). في هذه الدراسة، نطور نموذج ديناميكي متنبه (ADM) يكتشف العناصر القابلة للتحكم في الملاحظات، والتي غالبًا ما تكون مرتبطة بموقع الشخصية في ألعاب آتاري. يتم تدريب النموذج الديناميكي المتنبه بطريقة ذاتية غير مشرف عليها لتوقع الإجراءات التي يقوم بها الوكيل. يستخدم المعلومات المشروطة التي تم تعلمها كجزء من تمثيل الحالة لأغراض الاستكشاف. نوضح أن الجمع بين خوارزمية الممثل-الناقد (actor-critic) والاستكشاف القائم على العد باستخدام تمثيلنا الخاص يحقق نتائج مثيرة للإعجاب في مجموعة من ألعاب آتاري الصعبة للغاية بسبب الجوائز النادرة. على سبيل المثال، نبلغ بتسجيل درجة قياسية تتجاوز 11,000 نقطة في لعبة "انتقام مونتيزوما" دون استخدام عروض خبراء أو معلومات عليا صريحة (مثل حالات الذاكرة العشوائية RAM) أو بيانات إشرافية. تؤكد تجاربنا أن الوعي بالظروف هو بالفعل مفهوم قوي للغاية لمعالجة مشكلات الاستكشاف في تعلم التعزيز ويفتح أسئلة بحثية مثيرة للاهتمام لمزيد من التحقيقات.