Command Palette
Search for a command to run...
ميوسلي: دمج التحسينات في تحسين السياسة
ميوسلي: دمج التحسينات في تحسين السياسة
Matteo Hessel Ivo Danihelka Fabio Viola Arthur Guez Simon Schmitt Laurent Sifre Theophane Weber David Silver Hado van Hasselt
الملخص
نُقدِّم سياسة تحديث جديدة تدمج بين تحسين السياسة المُنظَّم وتعلم النموذج كخسارة مساعدة. ويُعد هذا التحديث (الذي سيُشار إليه فيما بعد بـ Muesli) مُتساوٍ في الأداء القياسي مع MuZero على مجموعات بيانات Atari. ومن الملاحظ أن Muesli يحقق هذا الأداء دون استخدام بحث عميق: بل يُطبّق التصرف مباشرة عبر شبكة سياسة، ويتمتع بسرعة حسابية تُقارَن بأساليب التعلم بدون نموذج. وتُكمل نتائج Atari تحليلات واسعة النطاق، بالإضافة إلى نتائج إضافية في مجال التحكم المستمر ولعبة Go بحجم 9×9.