HyperAIHyperAI
منذ 2 أشهر

إعادة تجربة دورية في التعلم التعزيزي الموزع

{Steven Kapturowski, Will Dabney, Remi Munos, John Quan, Georg Ostrovski}
إعادة تجربة دورية في التعلم التعزيزي الموزع
الملخص

بناءً على النجاحات الحديثة في التدريب الموزع لوكالات التعلم بالتعزيز (RL)، نستعرض في هذه الورقة تدريب وكالات التعلم بالتعزيز القائمة على الشبكات العصبية التكرارية (RNN) من خلال إعادة تجربة مُولّدة موزعة ومُؤَجّلة. ندرس تأثير التأخير في المعاملات الذي يؤدي إلى الانحراف التمثيلي وتقادم الحالة التكرارية، ونستنتج بشكل تجريبي استراتيجية تدريب محسّنة. وباستخدام بنية شبكة واحدة ومجموعة ثابتة من المعامِلات الفائقة، يحقق الوكيل الناتج، المعروف بـ "Recurrent Replay Distributed DQN"، تحسينًا أربع مرات في أداء الحالة الراهنة على مجموعة بيانات Atari-57، ويتجاوز الحالة الراهنة على DMLab-30. وهو أول وكيل يتجاوز الأداء البشري في 52 من أصل 57 لعبة من ألعاب Atari.

إعادة تجربة دورية في التعلم التعزيزي الموزع | الأوراق البحثية | HyperAI