HyperAIHyperAI
منذ 2 أشهر

لعب أتاري باستخدام التعلم التعزيزي العميق

Volodymyr Mnih; Koray Kavukcuoglu; David Silver; Alex Graves; Ioannis Antonoglou; Daan Wierstra; Martin Riedmiller
لعب أتاري باستخدام التعلم التعزيزي العميق
الملخص

نقدم أول نموذج للتعلم العميق قادر على التعلم بنجاح من الإدخال الحسي ذي الأبعاد العالية مباشرة باستخدام التعلم التعزيزي. يتكون النموذج من شبكة عصبية تلافيفية، تم تدريبها باستخدام نوع من خوارزمية Q-learning، حيث يكون الإدخال هو البكسلات الخام والإخراج هو دالة قيمة تقدير المكافآت المستقبلية. قمنا بتطبيق طريقة عملنا على سبعة ألعاب من ألعاب Atari 2600 من بيئة التعلم في الأركيد، دون إجراء أي تعديلات على الهيكل أو الخوارزمية التعليمية. وجدنا أن هذا النموذج يتفوق على جميع الطرق السابقة في ستة من الألعاب ويتجاوز مستوى الخبراء البشريين في ثلاثة منها.

لعب أتاري باستخدام التعلم التعزيزي العميق | أحدث الأوراق البحثية | HyperAI