HyperAIHyperAI
منذ 17 أيام

ميوسلي: دمج التحسينات في تحسين السياسة

Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt, Laurent Sifre, Theophane Weber, David Silver, Hado van Hasselt
ميوسلي: دمج التحسينات في تحسين السياسة
الملخص

نُقدِّم سياسة تحديث جديدة تدمج بين تحسين السياسة المُنظَّم وتعلم النموذج كخسارة مساعدة. ويُعد هذا التحديث (الذي سيُشار إليه فيما بعد بـ Muesli) مُتساوٍ في الأداء القياسي مع MuZero على مجموعات بيانات Atari. ومن الملاحظ أن Muesli يحقق هذا الأداء دون استخدام بحث عميق: بل يُطبّق التصرف مباشرة عبر شبكة سياسة، ويتمتع بسرعة حسابية تُقارَن بأساليب التعلم بدون نموذج. وتُكمل نتائج Atari تحليلات واسعة النطاق، بالإضافة إلى نتائج إضافية في مجال التحكم المستمر ولعبة Go بحجم 9×9.

ميوسلي: دمج التحسينات في تحسين السياسة | أحدث الأوراق البحثية | HyperAI