HyperAIHyperAI
منذ 17 أيام

طريقة التقييم الناعم المُفكَّكة للتعلم القوي التعاوني متعدد الوكلاء

Yuan Pu, Shaochen Wang, Rui Yang, Xin Yao, Bin Li
طريقة التقييم الناعم المُفكَّكة للتعلم القوي التعاوني متعدد الوكلاء
الملخص

أظهرت أساليب التعلم التعميقي العميق (Deep Reinforcement Learning) أداءً متميزًا في العديد من المهام التعاونية متعددة الوكلاء الصعبة. وتشكل اتجاهان بحثيان واعدان رئيسيان: تحليل دالة القيمة متعددة الوكلاء، وتقدير السياسة متعددة الوكلاء باستخدام التدرجات. في هذا البحث، نقترح طريقة جديدة تُعرف بـ "مُحلّل المُتَقَسِّم الناعم للوكلاء المتعددين" (mSAC)، التي تُدمج بشكل فعّال المزايا المُتعلقة بالاتجاهين المذكورين سابقًا. تشمل المكونات الرئيسية للنموذج بنية شبكة Q المُحلّلة، والسياسة الاحتمالية المنفصلة، ودالة الميزة التبديلية (اختيارية). من الناحية النظرية، يدعم mSAC التعلّم غير المُتَابِع (off-policy) بكفاءة، ويعالج جزئيًا مشكلة تخصيص المُسؤولية (credit assignment) في كل من الفضاءات المنفصلة والمستمرة للإجراءات. وقد تم اختبار الأداء على معيار المهام التعاونية في StarCraft II الخاصة بإدارة الميكرو، حيث قمنا بدراسة تجريبية لأداء mSAC مقارنةً بنسخه المختلفة، وتحليل تأثير المكونات المختلفة. أظهرت النتائج التجريبية أن mSAC يتفوّق بشكل ملحوظ على النهج القائم على السياسة (COMA)، ويحقق نتائج تنافسية مع أحدث النماذج القائمة على دالة القيمة (Qmix) من حيث مقياس الأداء في الحد الأقصى (asymptotic performance) في معظم المهام. بالإضافة إلى ذلك، حقق mSAC نتائج جيدة جدًا في المهام ذات الفضاءات الكبيرة للإجراءات، مثل مهام 2c_vs_64zg وMMM2.

طريقة التقييم الناعم المُفكَّكة للتعلم القوي التعاوني متعدد الوكلاء | أحدث الأوراق البحثية | HyperAI