HyperAIHyperAI

Command Palette

Search for a command to run...

ACE: تعلم قائم على الوكيل المتعدد التعاوني مع اعتمادية ثنائية الاتجاه على الإجراء

Chuming Li Jie Liu Yinmin Zhang Yuhong Wei Yazhe Niu Yaodong Yang Yu Liu Wanli Ouyang

الملخص

يواجه التعلم القوي متعدد الوكلاء (MARL) مشكلة عدم الثبات، وهي مشكلة تتمثل في التغير المستمر في الأهداف في كل تكرار عندما يقوم عدة وكالاء بتحديث سياساتهم في نفس الوقت. وباستناد إلى المبادئ الأساسية، نُقدّم في هذه الورقة حلًا لهذه المشكلة من خلال اقتراح خوارزمية Q-التعلم المُعتمد على الإجراءات ثنائية الاتجاه (ACE). وجوهر تطوير ACE يكمن في عملية اتخاذ القرار المتسلسلة، حيث يُسمح لوكيل واحد فقط باتخاذ إجراء في كل مرة. ضمن هذه العملية، يُحسّن كل وكيل دالة قيمته مع الأخذ بعين الاعتبار الإجراءات التي قام بها الوكلاء السابقون أثناء مرحلة الاستنتاج. وفي مرحلة التعلّم، يُقلّل كل وكيل من خطأ التفاضل الزمني (TD error) الذي يعتمد على كيفية استجابة الوكلاء اللاحقين لإجراء اختيارهم. وبفضل التصميم القائم على الاعتماد ثنائي الاتجاه، تحوّل ACE بشكل فعّال مسألة MDP متعددة الوكلاء إلى مسألة MDP لوكيل واحد. ونُنفّذ إطار ACE من خلال تحديد تمثيل شبكي مناسب لصياغة الاعتماد على الإجراءات، بحيث يتم حساب عملية اتخاذ القرار المتسلسل بشكل ضمني في عملية واحدة تقدمية (forward pass). ولإثبات فعالية ACE، نقارنها بأساليب قوية في معايير MARL، ونُظهر من خلال التجارب التجريبية أن ACE تتفوّق بشكل كبير على أحدث الخوارزميات في مBenchmark Google Research Football وStarCraft Multi-Agent Challenge (SMAC). وبشكل خاص، حققت ACE معدل نجاح 100٪ على معظم الخرائط الصعبة وذات الصعوبة الفائقة في مهام SMAC. كما نُجري دراسة متعمقة لمشكلات بحثية واسعة تتعلق بـ ACE، بما في ذلك التوسيع، والعامّية، والقابلية للتطبيق العملي. وتم إتاحة الشفرة المصدرية لتسهيل الأبحاث المستقبلية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp