HyperAIHyperAI
منذ 2 أشهر

الاستكشاف العميق عبر DQN المُقَدَّر بالطريقة التمهيدية

Ian Osband; Charles Blundell; Alexander Pritzel; Benjamin Van Roy
الاستكشاف العميق عبر DQN المُقَدَّر بالطريقة التمهيدية
الملخص

الاستكشاف الفعال في البيئات المعقدة يظل تحديًا رئيسيًا للتعلم التعزيزي. نقترح خوارزمية DQN المُقَدَّرَة (bootstrapped DQN)، وهي خوارزمية بسيطة تُجري الاستكشاف بطريقة حسابية وإحصائية فعالة من خلال استخدام وظائف القيمة العشوائية. على عكس استراتيجيات الإرباك مثل استكشاف epsilon-greedy، يقوم DQN المُقَدَّر بالاستكشاف الممتد زمنيًا (أو العميق)؛ وهذا يمكن أن يؤدي إلى تعلم أسرع بمعدل أسي. نوضح هذه الفوائد في مسائل القرار العشوائية المعقدة (MDPs) وفي بيئة التعلم الكبيرة للألعاب الأركيد. يحسن DQN المُقَدَّر بشكل كبير أوقات التعلم والأداء في معظم ألعاب Atari.

الاستكشاف العميق عبر DQN المُقَدَّر بالطريقة التمهيدية | أحدث الأوراق البحثية | HyperAI