QMIX: تحليل الدالة القيمية المونوتونية للتعلم التعزيزي العميق بين الوكلاء المتعددين

في العديد من السياقات الواقعية، يجب على فريق من الوكلاء تنسيق سلوكهم بينما يعملون بطريقة موزعة. وفي الوقت نفسه، غالباً ما يكون من الممكن تدريب الوكلاء بطريقة مركزية في بيئة محاكاة أو مختبر، حيث تكون المعلومات الشاملة عن الحالة متاحة ولا توجد قيود على الاتصال. يعتبر تعلم قيم الأفعال المشتركة المشروطة بمعلومات الحالة الإضافية طريقة جذابة للاستفادة من التعلم المركزي، ولكن أفضل استراتيجية لاستخراج السياسات الموزعة بعد ذلك غير واضحة. حلنا هو QMIX، وهو طريقة جديدة تعتمد على قيمة يمكنها تدريب السياسات الموزعة بطريقة مركزية ومنتهية إلى المنتهى (end-to-end). يستخدم QMIX شبكة تقوم بتقدير قيم الأفعال المشتركة كمزيج معقد وغير خطي للقيم الخاصة بكل وكيل والتي تعتمد فقط على الملاحظات المحلية. نقوم بفرض بنائي أن قيمة الفعل المشترك تكون متزايدة بشكل أحادي في القيم الخاصة بكل وكيل، مما يسمح بالتحسين القابل للتنفيذ لقيمة الفعل المشترك في التعلم خارج السياسة، ويضمن التناسق بين السياسات المركزية والموزعة. نقيم QMIX على مجموعة صعبة من مهام إدارة العمليات الدقيقة في StarCraft II (StarCraft II)، ونظهر أن QMIX يتفوق بشكل كبير على الأساليب الحالية للتعلم التعزيزي المتعدد الوكلاء التي تعتمد على القيمة.