HyperAIHyperAI

Command Palette

Search for a command to run...

هياكل الشبكات المتنافسة للتعلم العميق بالتعزيز

Ziyu Wang Tom Schaul Matteo Hessel Hado van Hasselt Marc Lanctot Nando de Freitas

الملخص

في السنوات الأخيرة، شهد استخدام التمثيلات العميقة في تعلم التعزيز العديد من النجاحات. ومع ذلك، فإن العديد من هذه التطبيقات لا تزال تعتمد على الهندسات التقليدية مثل الشبكات الإدراكية المتكررة (الشبكية)، LSTM، أو المُشفِّرات التلقائية (auto-encoders). في هذا البحث، نقدم هندسة شبكة عصبية جديدة لتعلم التعزيز بدون نموذج. شبكتنا المتنافسة تمثل مقدرين منفصلين: أحدهما للدالة قيمة الحالة والآخر للدالة الفائدة المرتبطة بالحالة للأفعال. الفائدة الرئيسية لهذا التحليل إلى عوامل هي تعميم التعلم عبر الأفعال دون فرض أي تغيير على خوارزمية تعلم التعزيز الأساسية. تظهر نتائجنا أن هذه الهندسة تقود إلى تقييم سياسة أفضل في وجود العديد من الأفعال ذات القيم المشابهة. بالإضافة إلى ذلك، فإن الهندسة المتنافسة تمكّن وكيلنا لتعلم التعزيز من تحقيق أداء يتفوق على أحدث ما وصل إليه العلم في مجال ألعاب Atari 2600.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp