الملخص

نقدم NoisyNet، وهو وكيل تعليم تعزيزي عميق يتم إضافة ضوضاء معلمة إلى أوزانه، ونوضح أن العشوائية الناتجة عن سياسة الوكيل يمكن استخدامها لدعم الاستكشاف الفعال. يتم تعلم معلمات الضوضاء باستخدام الانحدار التدريجي مع بقية أوزان الشبكة. من السهل تنفيذ NoisyNet ولا يضيف الكثير من العبء الحسابي. نجد أن استبدال تقنيات الاستكشاف التقليدية لـ A3C، DQN والوكلاء المتنافسين (مكافأة الإنتروبيا وـ $ε$ -جريدلي على التوالي) بـ NoisyNet يؤدي إلى تحقيق نقاط أعلى بكثير لمجموعة واسعة من ألعاب Atari، وفي بعض الحالات ينتقل الوكيل من الأداء دون البشري إلى الأداء فوق البشري.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

شبكات الضوضاء للاستكشاف

Meire Fortunato; Mohammad Gheshlaghi Azar; Bilal Piot; Jacob Menick; Ian Osband; Alex Graves; Vlad Mnih; Remi Munos; Demis Hassabis; Olivier Pietquin; Charles Blundell; Shane Legg

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكات الضوضاء للاستكشاف

Meire Fortunato; Mohammad Gheshlaghi Azar; Bilal Piot; Jacob Menick; Ian Osband; Alex Graves; Vlad Mnih; Remi Munos; Demis Hassabis; Olivier Pietquin; Charles Blundell; Shane Legg

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

شبكات الضوضاء للاستكشاف

Meire Fortunato; Mohammad Gheshlaghi Azar; Bilal Piot; Jacob Menick; Ian Osband; Alex Graves; Vlad Mnih; Remi Munos; Demis Hassabis; Olivier Pietquin; Charles Blundell; Shane Legg

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters