HyperAIHyperAI

Command Palette

Search for a command to run...

إطار DFAC: تحليل دالة القيمة من خلال مزيج الرتبي لتعلم Q التوزيعي متعدد الوكلاء

Wei-Fang Sun Cheng-Kuang Lee Chun-Yi Lee

الملخص

في بيئات التعلم بالتعزيز متعدد الوكلاء التعاونية بالكامل (MARL)، تكون البيئات ذات تقلبات عالية بسبب المراقبة الجزئية لكل وكيل، والتغير المستمر في سياسات الوكلاء الآخرين. ولحل هذه المشكلات، ندمج بين منهجيات التعلم التوزيعي (Distributional RL) وطرق تحليل دالة القيمة من خلال اقتراح إطار عمل يُسمى تحليل دالة القيمة التوزيعي (DFAC)، والذي يعمم مناهج تحليل دالة القيمة المتوقعة إلى نسخها المُعدّلة (DFAC). يوسع DFAC وظائف الفائدة الفردية من المتغيرات الثابتة إلى المتغيرات العشوائية، وينمذج دالة الكوانتيل للعائد الكلي كمزيج من الكوانتيلات. ولإثبات فعالية DFAC، نُظهر قدرته على تحليل لعبة مصفوفية بسيطة مكوّنة من خطوتين ذات مكافآت عشوائية، كما نُجري تجارب على جميع المهام الصعبة جدًا ضمن تحدي الوكلاء في لعبة ستار كرافت، مما يُظهر أن DFAC قادر على التفوق على النماذج الأساسية التي تعتمد على تحليل دالة القيمة المتوقعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp