منذ 17 أيام
ميوسلي: دمج التحسينات في تحسين السياسة
Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt, Laurent Sifre, Theophane Weber, David Silver, Hado van Hasselt

الملخص
نُقدِّم سياسة تحديث جديدة تدمج بين تحسين السياسة المُنظَّم وتعلم النموذج كخسارة مساعدة. ويُعد هذا التحديث (الذي سيُشار إليه فيما بعد بـ Muesli) مُتساوٍ في الأداء القياسي مع MuZero على مجموعات بيانات Atari. ومن الملاحظ أن Muesli يحقق هذا الأداء دون استخدام بحث عميق: بل يُطبّق التصرف مباشرة عبر شبكة سياسة، ويتمتع بسرعة حسابية تُقارَن بأساليب التعلم بدون نموذج. وتُكمل نتائج Atari تحليلات واسعة النطاق، بالإضافة إلى نتائج إضافية في مجال التحكم المستمر ولعبة Go بحجم 9×9.