HyperAIHyperAI

Command Palette

Search for a command to run...

الاستكشاف: دراسة حول الاستكشاف القائم على العد في التعلم التعزيزي العميق

Haoran Tang extsuperscript1,* Rein Houthooft extsuperscript3,4,* Davis Foote extsuperscript2 Adam Stooke extsuperscript2 Xi Chen extsuperscript2† Yan Duan extsuperscript2† John Schulman extsuperscript4 Filip De Turck extsuperscript3 Pieter Abbeel extsuperscript2†

الملخص

تُعرف خوارزميات الاستكشاف القائمة على العد بأنها تؤدي بشكل قريب من الأمثل عند استخدامها مع طرق التعلم التعزيزي الجدولية (RL) لحل عمليات القرار الماركوفية المتقطعة الصغيرة (MDPs). يُعتقد عمومًا أن الطرق القائمة على العد لا يمكن تطبيقها في فضاءات الحالة ذات الأبعاد العالية، حيث ستظهر معظم الحالات مرة واحدة فقط. تمكنت استراتيجيات الاستكشاف الحديثة في التعلم التعزيزي العميق من التعامل مع فضاءات الحالة المستمرة ذات الأبعاد العالية من خلال استخدم تقنيات معقدة، غالبًا ما تعتمد على التفاؤل في مواجهة عدم اليقين أو الدافع الذاتي.في هذا البحث، نصف اكتشافًا مفاجئًا: يمكن للتبسيط البسيط للنهج الكلاسيكي القائم على العد أن يصل إلى أداء قريب من أفضل الأداء في مجموعة متنوعة من مقاييس التعلم التعزيزي العميق ذات الأبعاد العالية و/أو المستمرة. يتم رسم الخرائط بين الحالات وكودات الهاش، مما يسمح بعدّ حدوثها باستخدام جدول الهاش. ثم يتم استخدام هذه العدّادات لحساب مكافأة إضافية وفقًا لنظرية الاستكشاف القائمة على العد الكلاسيكية. نجد أن الدوال البسيطة للهاش يمكن أن تحقق نتائج جيدة بشكل مفاجئ في العديد من المهام الصعبة. بالإضافة إلى ذلك، نوضح أنه قد يتم تحسين هذه النتائج أكثر باستخدام كود هاش تم تعلمه ويعتمد على المجال.تحليل مفصل يكشف عن جوانب مهمة لدالة هاش جيدة: 1) وجود حجم حبيبي مناسب و2) ترميز المعلومات ذات الصلة بحل عملية القرار الماركوفية (MDP). تحقق هذه استراتيجية الاستكشاف أداءً قريبًا من أفضل الأداء في كلٍ من مهام السيطرة المستمرة وألعاب Atari 2600، مما يوفر أساسًا بسيطًا ومعتدل القوة لحل عمليات القرار الماركوفية التي تتطلب استكشافًا كبيرًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp