HyperAIHyperAI
منذ 17 أيام

التعلم المعزز من نوع مونكهاوزن

Nino Vieillard, Olivier Pietquin, Matthieu Geist
التعلم المعزز من نوع مونكهاوزن
الملخص

الـ Bootstrapping هو آلية أساسية في التعلم المعزز (Reinforcement Learning (RL. تعتمد معظم الخوارزميات، القائمة على الفروق الزمنية، على استبدال القيمة الحقيقية لحالة انتقالية بالتقدير الحالي لهذه القيمة. ومع ذلك، يمكن استغلال تقدير آخر لتمكين التعلم المعزز من خلال التكرار: السياسة الحالية. تمثل مساهمتنا الأساسية فكرة بسيطة جدًا: إضافة اللوغاريتم المُدرَج للسياسة المُقاسة إلى المكافأة الفورية. نُظهر أن تعديلًا طفيفًا على شبكة Q العميقة (DQN) بهذه الطريقة يُنتج وكيلًا يُنافس الطرق التوزيعية في ألعاب آتاري، دون استخدام التعلم التوزيعي، أو العوائد متعددة الخطوات (n-step returns)، أو إعادة العينة المُهيكلة (prioritized replay). ولإثبات تنوع هذه الفكرة، نستخدمها أيضًا مع شبكة كمّية ضمنية (Implicit Quantile Network (IQN). ويُظهر الوكيل الناتج أداءً أفضل من Rainbow في ألعاب آتاري، مُسجِّلًا حالة جديدة من التميز (State of the Art) بتعديلات بسيطة جدًا على الخوارزمية الأصلية. وبالإضافة إلى هذه الدراسة التجريبية، نقدّم تحليلات نظرية قوية حول ما يحدث خلف الكواليس: الت régularization التلقائي لـ Kullback-Leibler، وزيادة فجوة الإجراءات (action-gap).