HyperAIHyperAI
منذ 2 أشهر

شبكات الضوضاء للاستكشاف

Meire Fortunato; Mohammad Gheshlaghi Azar; Bilal Piot; Jacob Menick; Ian Osband; Alex Graves; Vlad Mnih; Remi Munos; Demis Hassabis; Olivier Pietquin; Charles Blundell; Shane Legg
شبكات الضوضاء للاستكشاف
الملخص

نقدم NoisyNet، وهو وكيل تعليم تعزيزي عميق يتم إضافة ضوضاء معلمة إلى أوزانه، ونوضح أن العشوائية الناتجة عن سياسة الوكيل يمكن استخدامها لدعم الاستكشاف الفعال. يتم تعلم معلمات الضوضاء باستخدام الانحدار التدريجي مع بقية أوزان الشبكة. من السهل تنفيذ NoisyNet ولا يضيف الكثير من العبء الحسابي. نجد أن استبدال تقنيات الاستكشاف التقليدية لـ A3C، DQN والوكلاء المتنافسين (مكافأة الإنتروبيا وـ $ε$-جريدلي على التوالي) بـ NoisyNet يؤدي إلى تحقيق نقاط أعلى بكثير لمجموعة واسعة من ألعاب Atari، وفي بعض الحالات ينتقل الوكيل من الأداء دون البشري إلى الأداء فوق البشري.

شبكات الضوضاء للاستكشاف | أحدث الأوراق البحثية | HyperAI