HyperAIHyperAI
منذ 2 أشهر

التصورات المضادة لتدرجات السياسات المتعددة الوكلاء

Jakob Foerster; Gregory Farquhar; Triantafyllos Afouras; Nantas Nardelli; Shimon Whiteson
التصورات المضادة لتدرجات السياسات المتعددة الوكلاء
الملخص

يمكن استخدام الأنظمة المتعددة الوكلاء بشكل طبيعي لنمذجة العديد من المشاكل الحقيقية، مثل توجيه حزم الشبكة وتنسيق المركبات ذاتية القيادة. هناك حاجة ماسة إلى طرق جديدة للتعلم التعزيزي يمكنها التعلم بكفاءة عن سياسات موزعة لهذه الأنظمة. لهذا الغرض، نقترح طريقة جديدة متعددة الوكلاء تسمى تadients السياسة المتعددة الوكلاء المضادة للواقع (COMA). يستخدم COMA ناقدًا مركزيًا لتقدير دالة Q ووكلاء موزعين لتحسين سياسات الوكلاء. بالإضافة إلى ذلك، لمعالجة تحديات توزيع الفضل في الأنظمة المتعددة الوكلاء، يستخدم خط أساس مضادًا للواقع يحذف أثر عمل وكيل واحد بينما يحافظ على أعمال الوكلاء الآخرين ثابتة. كما يستخدم COMA تمثيل الناقد الذي يسمح بحساب الخط الأساسي المضاد للواقع بكفاءة في عملية تمرير واحدة للأمام. قمنا بتقييم COMA في بيئة الاختبار الخاصة بإدارة الوحدات الدقيقة في لعبة StarCraft باستخدام نسخة موزعة تتسم بالمراقبة الجزئية الهامة. يحسن COMA الأداء المتوسط بشكل كبير مقارنة بالطرق الأخرى المتعددة الوكلاء التي تعتمد على الطريقة الفاعل-الناقد في هذا الإعداد، ويكون أفضل الأداء بين الوكلاء منافسًا لأحدث المراقبين المركزية التي لديها إمكانية الوصول إلى الحالة الكاملة.