HyperAIHyperAI
منذ 2 أشهر

التعلم التعزيزي التوزيعي باستخدام الانحدار الكمي

Will Dabney; Mark Rowland; Marc G. Bellemare; Rémi Munos
التعلم التعزيزي التوزيعي باستخدام الانحدار الكمي
الملخص

في تعلم التعزيز، يتفاعل العميل مع البيئة من خلال اتخاذ إجراءات ومراقبة الحالة التالية والمكافأة. عند اختيار هذه الانتقالات بين الحالات والمكافآت والإجراءات بطريقة احتمالية، يمكن أن تؤدي جميعها إلى عشوائية في المكافأة طويلة المدى الملاحظة. تقليديًا، تقوم خوارزميات تعلم التعزيز بحساب متوسط هذا العشوائية لتقدير دالة القيمة. في هذا البحث، نبني على العمل الحديث الذي يدعو إلى اتباع نهج توزيعي في تعلم التعزيز، حيث يتم نمذجة التوزيع على المكافآت بشكل صريح بدلاً من تقدير المتوسط فقط. بعبارة أخرى، نفحص طرق تعلم توزيع القيمة بدلاً من دالة القيمة. نقدم نتائج تغلق العديد من الفجوات بين النتائج النظرية والخوارزمية التي قدمها بلامار، دابني، ومونوس (2017). أولاً، نوسع النتائج الموجودة إلى الإعداد التقريبي للتوزيع. ثانيًا، نقدم خوارزمية تعزيز جديدة ومتسقة مع الصياغة النظرية لدينا. أخيرًا، نقيم هذه الخوارزمية الجديدة على ألعاب Atari 2600، ونلاحظ أنها تتخطى بكثير العديد من التحسينات الحديثة على DQN (Deep Q-Network)، بما في ذلك الخوارزمية التوزيعية المرتبطة C51.