منذ 16 أيام

ACE: تعلم قائم على الوكيل المتعدد التعاوني مع اعتمادية ثنائية الاتجاه على الإجراء

Chuming Li, Jie Liu, Yinmin Zhang, Yuhong Wei, Yazhe Niu, Yaodong Yang, Yu Liu, Wanli Ouyang

الملخص

يواجه التعلم القوي متعدد الوكلاء (MARL) مشكلة عدم الثبات، وهي مشكلة تتمثل في التغير المستمر في الأهداف في كل تكرار عندما يقوم عدة وكالاء بتحديث سياساتهم في نفس الوقت. وباستناد إلى المبادئ الأساسية، نُقدّم في هذه الورقة حلًا لهذه المشكلة من خلال اقتراح خوارزمية Q-التعلم المُعتمد على الإجراءات ثنائية الاتجاه (ACE). وجوهر تطوير ACE يكمن في عملية اتخاذ القرار المتسلسلة، حيث يُسمح لوكيل واحد فقط باتخاذ إجراء في كل مرة. ضمن هذه العملية، يُحسّن كل وكيل دالة قيمته مع الأخذ بعين الاعتبار الإجراءات التي قام بها الوكلاء السابقون أثناء مرحلة الاستنتاج. وفي مرحلة التعلّم، يُقلّل كل وكيل من خطأ التفاضل الزمني (TD error) الذي يعتمد على كيفية استجابة الوكلاء اللاحقين لإجراء اختيارهم. وبفضل التصميم القائم على الاعتماد ثنائي الاتجاه، تحوّل ACE بشكل فعّال مسألة MDP متعددة الوكلاء إلى مسألة MDP لوكيل واحد. ونُنفّذ إطار ACE من خلال تحديد تمثيل شبكي مناسب لصياغة الاعتماد على الإجراءات، بحيث يتم حساب عملية اتخاذ القرار المتسلسل بشكل ضمني في عملية واحدة تقدمية (forward pass). ولإثبات فعالية ACE، نقارنها بأساليب قوية في معايير MARL، ونُظهر من خلال التجارب التجريبية أن ACE تتفوّق بشكل كبير على أحدث الخوارزميات في مBenchmark Google Research Football وStarCraft Multi-Agent Challenge (SMAC). وبشكل خاص، حققت ACE معدل نجاح 100٪ على معظم الخرائط الصعبة وذات الصعوبة الفائقة في مهام SMAC. كما نُجري دراسة متعمقة لمشكلات بحثية واسعة تتعلق بـ ACE، بما في ذلك التوسيع، والعامّية، والقابلية للتطبيق العملي. وتم إتاحة الشفرة المصدرية لتسهيل الأبحاث المستقبلية.