HyperAIHyperAI
منذ 16 أيام

تقليل انحياز التقدير الزائد في المجالات متعددة الوكلاء باستخدام نُقّاد مركزيين مزدوجين

Johannes Ackermann, Volker Gabler, Takayuki Osa, Masashi Sugiyama
تقليل انحياز التقدير الزائد في المجالات متعددة الوكلاء باستخدام نُقّاد مركزيين مزدوجين
الملخص

تتطلب العديد من المهام الواقعية تعاونًا بين عدة وكلاء. تم اقتراح أساليب التعلم القائم على التقييم متعدد الوكلاء (RL) في السنوات الأخيرة لحل هذه المهام، لكن الطرق الحالية غالبًا ما تفشل في تعلم السياسات بكفاءة. ولذلك، نستكشف وجود عيب شائع في التعلم القائم على التقييم بالنسبة لوكيل واحد، وهو الانحياز الناتج عن تقدير مفرط لدالة القيمة، في البيئة متعددة الوكلاء. استنادًا إلى نتائجنا، نقترح منهجًا يقلل من هذا الانحياز من خلال استخدام نُظّار مركزيين مزدوجين. وقمنا بتقييمه على ستة مهام مختلطة من التعاون والمنافسة، وأظهر أداءً متميزًا مقارنة بالطرق الحالية. وأخيرًا، نستكشف تطبيق الأساليب متعددة الوكلاء على المهام الروبوتية عالية الأبعاد، ونُظهر أن منهجنا يمكن استخدامه لتعلم سياسات لامركزية في هذا المجال.

تقليل انحياز التقدير الزائد في المجالات متعددة الوكلاء باستخدام نُقّاد مركزيين مزدوجين | أحدث الأوراق البحثية | HyperAI