HyperAIHyperAI

Command Palette

Search for a command to run...

التقسيم الوظيفي للقيمة التناقصية للتعلم القوي متعدد الوكلاء العميق

Tabish Rashid Mikayel Samvelyan Christian Schroeder de Witt Gregory Farquhar Jakob Foerster Shimon Whiteson

الملخص

في العديد من البيئات الواقعية، يجب على فريق من الوكلاء التنسيق بين سلوكهم أثناء العمل بطريقة موزعة. في الوقت نفسه، غالبًا ما يكون من الممكن تدريب الوكلاء بطريقة مركزية، حيث تكون معلومات الحالة الشاملة متاحة، وتُلغى قيود الاتصال. يُعد تعلُّم قيم الإجراءات المشتركة المشروطة بمعلومات إضافية عن الحالة طريقة جذابة للاستفادة من التدريب المركزي، لكن الاستراتيجية المثلى لاستخراج السياسات الموزعة من هذه القيم لا تزال غير واضحة. حلّنا هو QMIX، وهي طريقة جديدة قائمة على القيمة يمكنها تدريب السياسات الموزعة بطريقة مركزية ونهائية (end-to-end). يستخدم QMIX شبكة خلط (mixing network) تقدّر قيم الإجراءات المشتركة كمزيج متزايد من قيم كل وكيل على حدة. ونفرض بشكل بنائي أن قيمة الإجراء المشترك تكون متزايدة بالنسبة لقيم الوكلاء الفردية، من خلال استخدام أوزان غير سالبة في شبكة الخلط، مما يضمن التوافق بين السياسات المركزية والموزعة. ولتقييم أداء QMIX، نقترح تحدي ستار كرافت متعدد الوكلاء (SMAC) كمُعيار جديد لتعلم التقويم المتعدد الوكلاء العميق. ونقيّم QMIX على مجموعة صعبة من سيناريوهات SMAC، ونُظهر أنه يتفوّق بشكل كبير على الطرق الحالية لتعلم التقويم المتعدد الوكلاء.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التقسيم الوظيفي للقيمة التناقصية للتعلم القوي متعدد الوكلاء العميق | مستندات | HyperAI