الاستكشاف: دراسة حول الاستكشاف القائم على العد في التعلم التعزيزي العميق

تُعرف خوارزميات الاستكشاف القائمة على العد بأنها تؤدي بشكل قريب من الأمثل عند استخدامها مع طرق التعلم التعزيزي الجدولية (RL) لحل عمليات القرار الماركوفية المتقطعة الصغيرة (MDPs). يُعتقد عمومًا أن الطرق القائمة على العد لا يمكن تطبيقها في فضاءات الحالة ذات الأبعاد العالية، حيث ستظهر معظم الحالات مرة واحدة فقط. تمكنت استراتيجيات الاستكشاف الحديثة في التعلم التعزيزي العميق من التعامل مع فضاءات الحالة المستمرة ذات الأبعاد العالية من خلال استخدم تقنيات معقدة، غالبًا ما تعتمد على التفاؤل في مواجهة عدم اليقين أو الدافع الذاتي.في هذا البحث، نصف اكتشافًا مفاجئًا: يمكن للتبسيط البسيط للنهج الكلاسيكي القائم على العد أن يصل إلى أداء قريب من أفضل الأداء في مجموعة متنوعة من مقاييس التعلم التعزيزي العميق ذات الأبعاد العالية و/أو المستمرة. يتم رسم الخرائط بين الحالات وكودات الهاش، مما يسمح بعدّ حدوثها باستخدام جدول الهاش. ثم يتم استخدام هذه العدّادات لحساب مكافأة إضافية وفقًا لنظرية الاستكشاف القائمة على العد الكلاسيكية. نجد أن الدوال البسيطة للهاش يمكن أن تحقق نتائج جيدة بشكل مفاجئ في العديد من المهام الصعبة. بالإضافة إلى ذلك، نوضح أنه قد يتم تحسين هذه النتائج أكثر باستخدام كود هاش تم تعلمه ويعتمد على المجال.تحليل مفصل يكشف عن جوانب مهمة لدالة هاش جيدة: 1) وجود حجم حبيبي مناسب و2) ترميز المعلومات ذات الصلة بحل عملية القرار الماركوفية (MDP). تحقق هذه استراتيجية الاستكشاف أداءً قريبًا من أفضل الأداء في كلٍ من مهام السيطرة المستمرة وألعاب Atari 2600، مما يوفر أساسًا بسيطًا ومعتدل القوة لحل عمليات القرار الماركوفية التي تتطلب استكشافًا كبيرًا.