منذ 2 أشهر
شبكات الضوضاء للاستكشاف
Meire Fortunato; Mohammad Gheshlaghi Azar; Bilal Piot; Jacob Menick; Ian Osband; Alex Graves; Vlad Mnih; Remi Munos; Demis Hassabis; Olivier Pietquin; Charles Blundell; Shane Legg

الملخص
نقدم NoisyNet، وهو وكيل تعليم تعزيزي عميق يتم إضافة ضوضاء معلمة إلى أوزانه، ونوضح أن العشوائية الناتجة عن سياسة الوكيل يمكن استخدامها لدعم الاستكشاف الفعال. يتم تعلم معلمات الضوضاء باستخدام الانحدار التدريجي مع بقية أوزان الشبكة. من السهل تنفيذ NoisyNet ولا يضيف الكثير من العبء الحسابي. نجد أن استبدال تقنيات الاستكشاف التقليدية لـ A3C، DQN والوكلاء المتنافسين (مكافأة الإنتروبيا وـ $ε$-جريدلي على التوالي) بـ NoisyNet يؤدي إلى تحقيق نقاط أعلى بكثير لمجموعة واسعة من ألعاب Atari، وفي بعض الحالات ينتقل الوكيل من الأداء دون البشري إلى الأداء فوق البشري.