الملخص

نُقدِّم سياسة تحديث جديدة تدمج بين تحسين السياسة المُنظَّم وتعلم النموذج كخسارة مساعدة. ويُعد هذا التحديث (الذي سيُشار إليه فيما بعد بـ Muesli) مُتساوٍ في الأداء القياسي مع MuZero على مجموعات بيانات Atari. ومن الملاحظ أن Muesli يحقق هذا الأداء دون استخدام بحث عميق: بل يُطبّق التصرف مباشرة عبر شبكة سياسة، ويتمتع بسرعة حسابية تُقارَن بأساليب التعلم بدون نموذج. وتُكمل نتائج Atari تحليلات واسعة النطاق، بالإضافة إلى نتائج إضافية في مجال التحكم المستمر ولعبة Go بحجم 9×9.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار