HyperAIHyperAI
منذ 17 أيام

التحديات متعددة الوكلاء في ستار كرافت بلس: تعلّم المهام متعددة المراحل والعوامل البيئية دون دوال مكافأة دقيقة

Mingyu Kim, Jihwan Oh, Yongsik Lee, Joonkee Kim, Seonghwan Kim, Song Chong, Se-Young Yun
التحديات متعددة الوكلاء في ستار كرافت بلس: تعلّم المهام متعددة المراحل والعوامل البيئية دون دوال مكافأة دقيقة
الملخص

في هذه الورقة، نُقدّم معيارًا جديدًا يُسمّى "تحديات ستار كرافت متعددة الوكلاء مُحسّنة+" (StarCraft Multi-Agent Challenges+)، حيث تتعلّم الوكلاء أداء مهام متعددة المراحل واستخدام العوامل البيئية دون وجود دوال مكافأة دقيقة. كانت التحديات السابقة (SMAC) تُعتبر المعيار القياسي لتعلم التقويم المتعدد الوكلاء، وتركّز بشكل رئيسي على ضمان تعاون جميع الوكلاء في إزالة الخصوم القادمين فقط من خلال ضبط دقيق مع دوال مكافأة واضحة. أما هذا التحدي، فيهتم بقدرة خوارزميات التعلم التكراري المتعدد الوكلاء (MARL) على استكشاف المهام المتعددة المراحل والبيئة بشكل فعّال، بالإضافة إلى التحكم الدقيق. تشمل هذه الدراسة سيناريوهات هجومية ودفاعية. في السيناريوهات الهجومية، يجب على الوكلاء تعلّم العثور على الخصوم أولًا، ثم إزالتهم. أما في السيناريوهات الدفاعية، فيجب على الوكلاء الاستفادة من الخصائص التضاريسية، مثل ترتيب أنفسهم خلف الهياكل الواقية لجعل من الصعب على العدو مهاجمتهم. قمنا بدراسة أداء خوارزميات MARL ضمن بيئة SMAC+، ولاحظنا أن النهج الحديثة تعمل بشكل جيد في البيئات المشابهة للتحديات السابقة، لكنها تُظهر سلوكًا غير ملائم في السيناريوهات الهجومية. علاوةً على ذلك، لاحظنا أن نهجًا مُحسّنًا في الاستكشاف يُحدث تأثيرًا إيجابيًا على الأداء، لكنه لا يُمكنه حل جميع السيناريوهات بشكل كامل. تُقدّم هذه الدراسة اتجاهات جديدة للبحث المستقبلي.