HyperAIHyperAI

Command Palette

Search for a command to run...

ميوسلي: دمج التحسينات في تحسين السياسة

Matteo Hessel Ivo Danihelka Fabio Viola Arthur Guez Simon Schmitt Laurent Sifre Theophane Weber David Silver Hado van Hasselt

الملخص

نُقدِّم سياسة تحديث جديدة تدمج بين تحسين السياسة المُنظَّم وتعلم النموذج كخسارة مساعدة. ويُعد هذا التحديث (الذي سيُشار إليه فيما بعد بـ Muesli) مُتساوٍ في الأداء القياسي مع MuZero على مجموعات بيانات Atari. ومن الملاحظ أن Muesli يحقق هذا الأداء دون استخدام بحث عميق: بل يُطبّق التصرف مباشرة عبر شبكة سياسة، ويتمتع بسرعة حسابية تُقارَن بأساليب التعلم بدون نموذج. وتُكمل نتائج Atari تحليلات واسعة النطاق، بالإضافة إلى نتائج إضافية في مجال التحكم المستمر ولعبة Go بحجم 9×9.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp