HyperAIHyperAI

Command Palette

Search for a command to run...

RUDDER: تحليل العودة للجوائز المتأخرة

Jose A. Arjona-Medina; Michael Gillhofer; Michael Widrich; Thomas Unterthiner; Johannes Brandstetter; Sepp Hochreiter

الملخص

نقترح مقاربة تعزيزية جديدة تُسمى RUDDER، وهي مصممة للتعامل مع المكافآت المتأخرة في العمليات القرارية الماركوفية المنتهية (MDPs). في هذه العمليات، قيم Q تساوي المكافأة الفورية المتوقعة بالإضافة إلى المكافآت المستقبلية المتوقعة. هذه الأخيرة مرتبطة بمشكلات التحيز في تعلم الفروق الزمنية (TD) ومشكلات التباين العالي في تعلم مونتي كارلو (MC). تكون هاتان المشكلتان أكثر حدة عندما تكون المكافآت متأخرة. يهدف RUDDER إلى جعل المكافآت المستقبلية المتوقعة صفرًا، مما يبسط تقدير قيم Q إلى حساب متوسط المكافأة الفورية. نقترح الآتي من المفاهيم الجديدة لدفع المكافآت المستقبلية المتوقعة نحو الصفر:(i) إعادة توزيع المكافآت التي تقود إلى عمليات قرارية ذات عوائد متكافئة ولها نفس السياسات الأمثل، وفي حالة الأمثلة، تكون المكافآت المستقبلية المتوقعة صفرًا.(ii) تحليل العوائد عبر تحليل الإسهام الذي يحول مهمة تعزيز التعلم إلى مهمة الانحدار التي يتميز فيها التعلم العميق. على المهام الاصطناعية ذات المكافآت المتأخرة، يكون RUDDER أسرع بكثير من MC وأسرع بشكل أساسي من البحث الشجري لمونتي كارلو (MCTS)، TD(λ)، ومقاربات إعادة تشكيل المكافأة. بالنسبة للألعاب آتاري، يحسن RUDDER النتائج عند استخدامه فوق أساس التحسين التدريجي القريب (PPO)، وهذا واضح بشكل خاص في الألعاب ذات المكافآت المتأخرة. يمكن الحصول على الكود المصدر من \url{https://github.com/ml-jku/rudder} والفيديوهات التوضيحية من \url{https://goo.gl/EQerZV}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp