الملخص

في العديد من البيئات الواقعية، يجب على فريق من الوكلاء التنسيق بين سلوكهم أثناء العمل بطريقة موزعة. في الوقت نفسه، غالبًا ما يكون من الممكن تدريب الوكلاء بطريقة مركزية، حيث تكون معلومات الحالة الشاملة متاحة، وتُلغى قيود الاتصال. يُعد تعلُّم قيم الإجراءات المشتركة المشروطة بمعلومات إضافية عن الحالة طريقة جذابة للاستفادة من التدريب المركزي، لكن الاستراتيجية المثلى لاستخراج السياسات الموزعة من هذه القيم لا تزال غير واضحة. حلّنا هو QMIX، وهي طريقة جديدة قائمة على القيمة يمكنها تدريب السياسات الموزعة بطريقة مركزية ونهائية (end-to-end). يستخدم QMIX شبكة خلط (mixing network) تقدّر قيم الإجراءات المشتركة كمزيج متزايد من قيم كل وكيل على حدة. ونفرض بشكل بنائي أن قيمة الإجراء المشترك تكون متزايدة بالنسبة لقيم الوكلاء الفردية، من خلال استخدام أوزان غير سالبة في شبكة الخلط، مما يضمن التوافق بين السياسات المركزية والموزعة. ولتقييم أداء QMIX، نقترح تحدي ستار كرافت متعدد الوكلاء (SMAC) كمُعيار جديد لتعلم التقويم المتعدد الوكلاء العميق. ونقيّم QMIX على مجموعة صعبة من سيناريوهات SMAC، ونُظهر أنه يتفوّق بشكل كبير على الطرق الحالية لتعلم التقويم المتعدد الوكلاء.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

التقسيم الوظيفي للقيمة التناقصية للتعلم القوي متعدد الوكلاء العميق

Tabish Rashid Mikayel Samvelyan Christian Schroeder de Witt Gregory Farquhar Jakob Foerster Shimon Whiteson

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التقسيم الوظيفي للقيمة التناقصية للتعلم القوي متعدد الوكلاء العميق

Tabish Rashid Mikayel Samvelyan Christian Schroeder de Witt Gregory Farquhar Jakob Foerster Shimon Whiteson

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

التقسيم الوظيفي للقيمة التناقصية للتعلم القوي متعدد الوكلاء العميق

Tabish Rashid Mikayel Samvelyan Christian Schroeder de Witt Gregory Farquhar Jakob Foerster Shimon Whiteson

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters