HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم المعزز من نوع مونكهاوزن

Nino Vieillard Olivier Pietquin Matthieu Geist

الملخص

الـ Bootstrapping هو آلية أساسية في التعلم المعزز (Reinforcement Learning (RL. تعتمد معظم الخوارزميات، القائمة على الفروق الزمنية، على استبدال القيمة الحقيقية لحالة انتقالية بالتقدير الحالي لهذه القيمة. ومع ذلك، يمكن استغلال تقدير آخر لتمكين التعلم المعزز من خلال التكرار: السياسة الحالية. تمثل مساهمتنا الأساسية فكرة بسيطة جدًا: إضافة اللوغاريتم المُدرَج للسياسة المُقاسة إلى المكافأة الفورية. نُظهر أن تعديلًا طفيفًا على شبكة Q العميقة (DQN) بهذه الطريقة يُنتج وكيلًا يُنافس الطرق التوزيعية في ألعاب آتاري، دون استخدام التعلم التوزيعي، أو العوائد متعددة الخطوات (n-step returns)، أو إعادة العينة المُهيكلة (prioritized replay). ولإثبات تنوع هذه الفكرة، نستخدمها أيضًا مع شبكة كمّية ضمنية (Implicit Quantile Network (IQN). ويُظهر الوكيل الناتج أداءً أفضل من Rainbow في ألعاب آتاري، مُسجِّلًا حالة جديدة من التميز (State of the Art) بتعديلات بسيطة جدًا على الخوارزمية الأصلية. وبالإضافة إلى هذه الدراسة التجريبية، نقدّم تحليلات نظرية قوية حول ما يحدث خلف الكواليس: الت régularization التلقائي لـ Kullback-Leibler، وزيادة فجوة الإجراءات (action-gap).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم المعزز من نوع مونكهاوزن | مستندات | HyperAI