HyperAIHyperAI

Command Palette

Search for a command to run...

التصورات المضادة لتدرجات السياسات المتعددة الوكلاء

Jakob N. Foerster Triantafyllos Afouras Nantas Nardelli Shimon Whiteson

الملخص

يمكن استخدام الأنظمة المتعددة الوكلاء بشكل طبيعي لنمذجة العديد من المشاكل الحقيقية، مثل توجيه حزم الشبكة وتنسيق المركبات ذاتية القيادة. هناك حاجة ماسة إلى طرق جديدة للتعلم التعزيزي يمكنها التعلم بكفاءة عن سياسات موزعة لهذه الأنظمة. لهذا الغرض، نقترح طريقة جديدة متعددة الوكلاء تسمى تadients السياسة المتعددة الوكلاء المضادة للواقع (COMA). يستخدم COMA ناقدًا مركزيًا لتقدير دالة Q ووكلاء موزعين لتحسين سياسات الوكلاء. بالإضافة إلى ذلك، لمعالجة تحديات توزيع الفضل في الأنظمة المتعددة الوكلاء، يستخدم خط أساس مضادًا للواقع يحذف أثر عمل وكيل واحد بينما يحافظ على أعمال الوكلاء الآخرين ثابتة. كما يستخدم COMA تمثيل الناقد الذي يسمح بحساب الخط الأساسي المضاد للواقع بكفاءة في عملية تمرير واحدة للأمام. قمنا بتقييم COMA في بيئة الاختبار الخاصة بإدارة الوحدات الدقيقة في لعبة StarCraft باستخدام نسخة موزعة تتسم بالمراقبة الجزئية الهامة. يحسن COMA الأداء المتوسط بشكل كبير مقارنة بالطرق الأخرى المتعددة الوكلاء التي تعتمد على الطريقة الفاعل-الناقد في هذا الإعداد، ويكون أفضل الأداء بين الوكلاء منافسًا لأحدث المراقبين المركزية التي لديها إمكانية الوصول إلى الحالة الكاملة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp