HyperAIHyperAI
منذ 2 أشهر

ستاركرافت الثاني: تحدي جديد للتعلم التعزيزي

Oriol Vinyals; Timo Ewalds; Sergey Bartunov; Petko Georgiev; Alexander Sasha Vezhnevets; Michelle Yeo; Alireza Makhzani; Heinrich Küttler; John Agapiou; Julian Schrittwieser; John Quan; Stephen Gaffney; Stig Petersen; Karen Simonyan; Tom Schaul; Hado van Hasselt; David Silver; Timothy Lillicrap; Kevin Calderone; Paul Keet; Anthony Brunasso; David Lawrence; Anders Ekermo; Jacob Repp; Rodney Tsing
ستاركرافت الثاني: تحدي جديد للتعلم التعزيزي
الملخص

يقدم هذا البحث بيئة التعلم التعزيزي SC2LE (بيئة التعلم في StarCraft II). تشكل هذه البيئة تحديًا كبيرًا جديدًا للتعلم التعزيزي، حيث تمثل فئة أكثر صعوبة من المشكلات التي تم النظر فيها في معظم الأعمال السابقة. إنها مشكلة متعددة الوكلاء مع تفاعل لاعبين متعددين؛ هناك معلومات غير كاملة بسبب خريطة جزئية الملاحظة؛ تحتوي على مجال عمل واسع يشمل اختيار وتحكم وحدات تصل إلى المئات؛ لديها مجال حالة كبير يجب ملاحظته فقط من خلال طبقات الخصائص الأولية الخام؛ ولديها تخصيص الائتمان المؤجل الذي يتطلب استراتيجيات طويلة الأمد على مدى آلاف الخطوات.نقوم بوصف مواصفات الملاحظة والعمل والمكافأة لمنطقة StarCraft II وتقديم واجهة مفتوحة المصدر باللغة بايثون للتواصل مع محرك اللعبة. بالإضافة إلى خرائط اللعبة الرئيسية، نوفر مجموعة من الألعاب المصغرة التي تركز على عناصر مختلفة من أسلوب اللعب في StarCraft II. بالنسبة لخرائط اللعبة الرئيسية، نوفر أيضًا مجموعة بيانات مرافقة تتكون من بيانات إعادة تشغيل اللعبة من لاعبين بشر خبراء. نقدم النتائج الأساسية الأولى للشبكات العصبية التي تم تدريبها باستخدام هذه البيانات للتنبؤ بنتائج اللعبة وأفعال اللاعبين. أخيرًا، نعرض النتائج الأساسية الأولى للموكلين الرئيسيين للتعلم العميق التعزيزي عند تطبيقهم على منطقة StarCraft II. في الألعاب المصغرة، يتمكن هؤلاء الموكلون من التعلم لتحقيق مستوى اللعب الذي يقارن بمستوى اللاعب المبتدئ. ومع ذلك، عند تدريبهم على اللعبة الرئيسية، لا يتمكنون من إحراز تقدم كبير. وبالتالي، فإن SC2LE توفر بيئة جديدة ومثيرة للتحدي لاستكشاف خوارزميات وأنظمة التعلم العميق التعزيزي.

ستاركرافت الثاني: تحدي جديد للتعلم التعزيزي | أحدث الأوراق البحثية | HyperAI