HyperAIHyperAI
منذ 2 أشهر

تحفيز الاستكشاف في تعلم التعزيز باستخدام النماذج التنبؤية العميقة

Bradly C. Stadie; Sergey Levine; Pieter Abbeel
تحفيز الاستكشاف في تعلم التعزيز باستخدام النماذج التنبؤية العميقة
الملخص

تحقيق الاستكشاف الفعال والقابل للتوسع في المجالات المعقدة يشكل تحديًا رئيسيًا في تعلم التعزيز. رغم أن النهج البيزياني وPAC-MDP يقدمان ضمانات رسمية قوية لمشكلة الاستكشاف، إلا أنهما غالبًا ما يكونان غير عمليين في الأبعاد الأعلى بسبب اعتمادهما على تعداد المساحة الحالة-الإجراء. لذلك، يتم غالبًا أداء الاستكشاف في المجالات المعقدة باستخدام طرق بسيطة مثل طريقة epsilon-greedy. في هذا البحث، نعتبر مجال ألعاب Atari الصعبة، الذي يتطلب معالجة مدخلات البكسل الخام والمكافآت المتأخرة. نقيم عدة استراتيجيات استكشاف أكثر تعقيدًا، بما في ذلك عينة Thompson (Thompson sampling) واستكشاف Boltzmann (Boltzmann exploration)، ونقترح طريقة استكشاف جديدة تستند إلى تعيين مكافآت استكشاف من نموذج تم تعلمه بالتوازي لنظام الديناميكية. من خلال استخدام شبكة عصبية لتقدير نموذجنا المتعلم، نتمكن من تطوير نهج قابل للتوسع وفعال للمكافآت الاستكشافية يمكن تطبيقه على المهام ذات المساحات الحالة المعقدة والعالية الأبعاد. في مجال Atari، توفر طريقتنا تحسينًا أكثر ثباتًا عبر مجموعة متنوعة من الألعاب التي تمثل تحديًا رئيسيًا للطرق السابقة. بالإضافة إلى النقاط الأولية للألعاب، نطور أيضًا مؤشر AUC-100 للمجال التعليمي في Atari لتقييم تأثير الاستكشاف على هذه المعايير المرجعية.