HyperAIHyperAI

Command Palette

Search for a command to run...

إعادة تجربة دورية في التعلم التعزيزي الموزع

Steven Kapturowski Will Dabney Remi Munos John Quan Georg Ostrovski

الملخص

بناءً على النجاحات الحديثة في التدريب الموزع لوكالات التعلم بالتعزيز (RL)، نستعرض في هذه الورقة تدريب وكالات التعلم بالتعزيز القائمة على الشبكات العصبية التكرارية (RNN) من خلال إعادة تجربة مُولّدة موزعة ومُؤَجّلة. ندرس تأثير التأخير في المعاملات الذي يؤدي إلى الانحراف التمثيلي وتقادم الحالة التكرارية، ونستنتج بشكل تجريبي استراتيجية تدريب محسّنة. وباستخدام بنية شبكة واحدة ومجموعة ثابتة من المعامِلات الفائقة، يحقق الوكيل الناتج، المعروف بـ "Recurrent Replay Distributed DQN"، تحسينًا أربع مرات في أداء الحالة الراهنة على مجموعة بيانات Atari-57، ويتجاوز الحالة الراهنة على DMLab-30. وهو أول وكيل يتجاوز الأداء البشري في 52 من أصل 57 لعبة من ألعاب Atari.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp