HyperAIHyperAI

Command Palette

Search for a command to run...

طريقة التقييم الناعم المُفكَّكة للتعلم القوي التعاوني متعدد الوكلاء

Yuan Pu Shaochen Wang Rui Yang Xin Yao Bin Li

الملخص

أظهرت أساليب التعلم التعميقي العميق (Deep Reinforcement Learning) أداءً متميزًا في العديد من المهام التعاونية متعددة الوكلاء الصعبة. وتشكل اتجاهان بحثيان واعدان رئيسيان: تحليل دالة القيمة متعددة الوكلاء، وتقدير السياسة متعددة الوكلاء باستخدام التدرجات. في هذا البحث، نقترح طريقة جديدة تُعرف بـ "مُحلّل المُتَقَسِّم الناعم للوكلاء المتعددين" (mSAC)، التي تُدمج بشكل فعّال المزايا المُتعلقة بالاتجاهين المذكورين سابقًا. تشمل المكونات الرئيسية للنموذج بنية شبكة Q المُحلّلة، والسياسة الاحتمالية المنفصلة، ودالة الميزة التبديلية (اختيارية). من الناحية النظرية، يدعم mSAC التعلّم غير المُتَابِع (off-policy) بكفاءة، ويعالج جزئيًا مشكلة تخصيص المُسؤولية (credit assignment) في كل من الفضاءات المنفصلة والمستمرة للإجراءات. وقد تم اختبار الأداء على معيار المهام التعاونية في StarCraft II الخاصة بإدارة الميكرو، حيث قمنا بدراسة تجريبية لأداء mSAC مقارنةً بنسخه المختلفة، وتحليل تأثير المكونات المختلفة. أظهرت النتائج التجريبية أن mSAC يتفوّق بشكل ملحوظ على النهج القائم على السياسة (COMA)، ويحقق نتائج تنافسية مع أحدث النماذج القائمة على دالة القيمة (Qmix) من حيث مقياس الأداء في الحد الأقصى (asymptotic performance) في معظم المهام. بالإضافة إلى ذلك، حقق mSAC نتائج جيدة جدًا في المهام ذات الفضاءات الكبيرة للإجراءات، مثل مهام 2c_vs_64zg وMMM2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp