HyperAIHyperAI
منذ 11 أيام

التقسيم الوظيفي للقيمة التناقصية للتعلم القوي متعدد الوكلاء العميق

Tabish Rashid, Mikayel Samvelyan, Christian Schroeder de Witt, Gregory Farquhar, Jakob Foerster, Shimon Whiteson
التقسيم الوظيفي للقيمة التناقصية للتعلم القوي متعدد الوكلاء العميق
الملخص

في العديد من البيئات الواقعية، يجب على فريق من الوكلاء التنسيق بين سلوكهم أثناء العمل بطريقة موزعة. في الوقت نفسه، غالبًا ما يكون من الممكن تدريب الوكلاء بطريقة مركزية، حيث تكون معلومات الحالة الشاملة متاحة، وتُلغى قيود الاتصال. يُعد تعلُّم قيم الإجراءات المشتركة المشروطة بمعلومات إضافية عن الحالة طريقة جذابة للاستفادة من التدريب المركزي، لكن الاستراتيجية المثلى لاستخراج السياسات الموزعة من هذه القيم لا تزال غير واضحة. حلّنا هو QMIX، وهي طريقة جديدة قائمة على القيمة يمكنها تدريب السياسات الموزعة بطريقة مركزية ونهائية (end-to-end). يستخدم QMIX شبكة خلط (mixing network) تقدّر قيم الإجراءات المشتركة كمزيج متزايد من قيم كل وكيل على حدة. ونفرض بشكل بنائي أن قيمة الإجراء المشترك تكون متزايدة بالنسبة لقيم الوكلاء الفردية، من خلال استخدام أوزان غير سالبة في شبكة الخلط، مما يضمن التوافق بين السياسات المركزية والموزعة. ولتقييم أداء QMIX، نقترح تحدي ستار كرافت متعدد الوكلاء (SMAC) كمُعيار جديد لتعلم التقويم المتعدد الوكلاء العميق. ونقيّم QMIX على مجموعة صعبة من سيناريوهات SMAC، ونُظهر أنه يتفوّق بشكل كبير على الطرق الحالية لتعلم التقويم المتعدد الوكلاء.

التقسيم الوظيفي للقيمة التناقصية للتعلم القوي متعدد الوكلاء العميق | أحدث الأوراق البحثية | HyperAI