منذ 2 أشهر
تعلم القيم عبر عدة أوامر من العظمى
Hado van Hasselt; Arthur Guez; Matteo Hessel; Volodymyr Mnih; David Silver

الملخص
معظم خوارزميات التعلم ليست ثابتة بالنسبة لمقياس الدالة التي يتم تقريبها. نقترح تطبيع الأهداف المستخدمة في التعلم بشكل متكيف. هذا مفيد في التعلم المعزز القائم على القيمة، حيث يمكن أن تتغير قيمة التقريبات المناسبة بمرور الوقت عند تحديث سياسة السلوك. دوافعنا الرئيسية هي الأعمال السابقة حول تعلم لعب ألعاب آتاري، حيث تم قص جميع المكافآت إلى نطاق محدد مسبقًا. يسهل هذا القص عملية التعلم عبر العديد من الألعاب المختلفة باستخدام خوارزمية تعلم واحدة، ولكن يمكن أن يؤدي وظيفة المكافأة المقتصة إلى سلوك كميًا مختلف. باستخدام التطبيع المتكيف، يمكننا إزالة هذه الاستدلال الخاصة بالمنطقة دون الحد من الأداء العام.