HyperAIHyperAI
منذ 15 أيام

إطار DFAC: تحليل دالة القيمة من خلال مزيج الرتبي لتعلم Q التوزيعي متعدد الوكلاء

Wei-Fang Sun, Cheng-Kuang Lee, Chun-Yi Lee
إطار DFAC: تحليل دالة القيمة من خلال مزيج الرتبي لتعلم Q التوزيعي متعدد الوكلاء
الملخص

في بيئات التعلم بالتعزيز متعدد الوكلاء التعاونية بالكامل (MARL)، تكون البيئات ذات تقلبات عالية بسبب المراقبة الجزئية لكل وكيل، والتغير المستمر في سياسات الوكلاء الآخرين. ولحل هذه المشكلات، ندمج بين منهجيات التعلم التوزيعي (Distributional RL) وطرق تحليل دالة القيمة من خلال اقتراح إطار عمل يُسمى تحليل دالة القيمة التوزيعي (DFAC)، والذي يعمم مناهج تحليل دالة القيمة المتوقعة إلى نسخها المُعدّلة (DFAC). يوسع DFAC وظائف الفائدة الفردية من المتغيرات الثابتة إلى المتغيرات العشوائية، وينمذج دالة الكوانتيل للعائد الكلي كمزيج من الكوانتيلات. ولإثبات فعالية DFAC، نُظهر قدرته على تحليل لعبة مصفوفية بسيطة مكوّنة من خطوتين ذات مكافآت عشوائية، كما نُجري تجارب على جميع المهام الصعبة جدًا ضمن تحدي الوكلاء في لعبة ستار كرافت، مما يُظهر أن DFAC قادر على التفوق على النماذج الأساسية التي تعتمد على تحليل دالة القيمة المتوقعة.

إطار DFAC: تحليل دالة القيمة من خلال مزيج الرتبي لتعلم Q التوزيعي متعدد الوكلاء | أحدث الأوراق البحثية | HyperAI