منذ 6 أشهر

الملخص

الـ Bootstrapping هو آلية أساسية في التعلم المعزز (Reinforcement Learning (RL. تعتمد معظم الخوارزميات، القائمة على الفروق الزمنية، على استبدال القيمة الحقيقية لحالة انتقالية بالتقدير الحالي لهذه القيمة. ومع ذلك، يمكن استغلال تقدير آخر لتمكين التعلم المعزز من خلال التكرار: السياسة الحالية. تمثل مساهمتنا الأساسية فكرة بسيطة جدًا: إضافة اللوغاريتم المُدرَج للسياسة المُقاسة إلى المكافأة الفورية. نُظهر أن تعديلًا طفيفًا على شبكة Q العميقة (DQN) بهذه الطريقة يُنتج وكيلًا يُنافس الطرق التوزيعية في ألعاب آتاري، دون استخدام التعلم التوزيعي، أو العوائد متعددة الخطوات (n-step returns)، أو إعادة العينة المُهيكلة (prioritized replay). ولإثبات تنوع هذه الفكرة، نستخدمها أيضًا مع شبكة كمّية ضمنية (Implicit Quantile Network (IQN). ويُظهر الوكيل الناتج أداءً أفضل من Rainbow في ألعاب آتاري، مُسجِّلًا حالة جديدة من التميز (State of the Art) بتعديلات بسيطة جدًا على الخوارزمية الأصلية. وبالإضافة إلى هذه الدراسة التجريبية، نقدّم تحليلات نظرية قوية حول ما يحدث خلف الكواليس: الت régularization التلقائي لـ Kullback-Leibler، وزيادة فجوة الإجراءات (action-gap).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار