منذ 2 أشهر

RUDDER: تحليل العودة للجوائز المتأخرة

Jose A. Arjona-Medina; Michael Gillhofer; Michael Widrich; Thomas Unterthiner; Johannes Brandstetter; Sepp Hochreiter

الملخص

نقترح مقاربة تعزيزية جديدة تُسمى RUDDER، وهي مصممة للتعامل مع المكافآت المتأخرة في العمليات القرارية الماركوفية المنتهية (MDPs). في هذه العمليات، قيم Q تساوي المكافأة الفورية المتوقعة بالإضافة إلى المكافآت المستقبلية المتوقعة. هذه الأخيرة مرتبطة بمشكلات التحيز في تعلم الفروق الزمنية (TD) ومشكلات التباين العالي في تعلم مونتي كارلو (MC). تكون هاتان المشكلتان أكثر حدة عندما تكون المكافآت متأخرة. يهدف RUDDER إلى جعل المكافآت المستقبلية المتوقعة صفرًا، مما يبسط تقدير قيم Q إلى حساب متوسط المكافأة الفورية. نقترح الآتي من المفاهيم الجديدة لدفع المكافآت المستقبلية المتوقعة نحو الصفر:(i) إعادة توزيع المكافآت التي تقود إلى عمليات قرارية ذات عوائد متكافئة ولها نفس السياسات الأمثل، وفي حالة الأمثلة، تكون المكافآت المستقبلية المتوقعة صفرًا.(ii) تحليل العوائد عبر تحليل الإسهام الذي يحول مهمة تعزيز التعلم إلى مهمة الانحدار التي يتميز فيها التعلم العميق. على المهام الاصطناعية ذات المكافآت المتأخرة، يكون RUDDER أسرع بكثير من MC وأسرع بشكل أساسي من البحث الشجري لمونتي كارلو (MCTS)، TD(λ)، ومقاربات إعادة تشكيل المكافأة. بالنسبة للألعاب آتاري، يحسن RUDDER النتائج عند استخدامه فوق أساس التحسين التدريجي القريب (PPO)، وهذا واضح بشكل خاص في الألعاب ذات المكافآت المتأخرة. يمكن الحصول على الكود المصدر من \url{https://github.com/ml-jku/rudder} والفيديوهات التوضيحية من \url{https://goo.gl/EQerZV}.