HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم التعزيزي التوزيعي باستخدام الانحدار الكمي

Will Dabney; Mark Rowland; Marc G. Bellemare; Rémi Munos

الملخص

في تعلم التعزيز، يتفاعل العميل مع البيئة من خلال اتخاذ إجراءات ومراقبة الحالة التالية والمكافأة. عند اختيار هذه الانتقالات بين الحالات والمكافآت والإجراءات بطريقة احتمالية، يمكن أن تؤدي جميعها إلى عشوائية في المكافأة طويلة المدى الملاحظة. تقليديًا، تقوم خوارزميات تعلم التعزيز بحساب متوسط هذا العشوائية لتقدير دالة القيمة. في هذا البحث، نبني على العمل الحديث الذي يدعو إلى اتباع نهج توزيعي في تعلم التعزيز، حيث يتم نمذجة التوزيع على المكافآت بشكل صريح بدلاً من تقدير المتوسط فقط. بعبارة أخرى، نفحص طرق تعلم توزيع القيمة بدلاً من دالة القيمة. نقدم نتائج تغلق العديد من الفجوات بين النتائج النظرية والخوارزمية التي قدمها بلامار، دابني، ومونوس (2017). أولاً، نوسع النتائج الموجودة إلى الإعداد التقريبي للتوزيع. ثانيًا، نقدم خوارزمية تعزيز جديدة ومتسقة مع الصياغة النظرية لدينا. أخيرًا، نقيم هذه الخوارزمية الجديدة على ألعاب Atari 2600، ونلاحظ أنها تتخطى بكثير العديد من التحسينات الحديثة على DQN (Deep Q-Network)، بما في ذلك الخوارزمية التوزيعية المرتبطة C51.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم التعزيزي التوزيعي باستخدام الانحدار الكمي | مستندات | HyperAI