HyperAIHyperAI

Command Palette

Search for a command to run...

تقليل انحياز التقدير الزائد في المجالات متعددة الوكلاء باستخدام نُقّاد مركزيين مزدوجين

Johannes Ackermann Volker Gabler Takayuki Osa Masashi Sugiyama

الملخص

تتطلب العديد من المهام الواقعية تعاونًا بين عدة وكلاء. تم اقتراح أساليب التعلم القائم على التقييم متعدد الوكلاء (RL) في السنوات الأخيرة لحل هذه المهام، لكن الطرق الحالية غالبًا ما تفشل في تعلم السياسات بكفاءة. ولذلك، نستكشف وجود عيب شائع في التعلم القائم على التقييم بالنسبة لوكيل واحد، وهو الانحياز الناتج عن تقدير مفرط لدالة القيمة، في البيئة متعددة الوكلاء. استنادًا إلى نتائجنا، نقترح منهجًا يقلل من هذا الانحياز من خلال استخدام نُظّار مركزيين مزدوجين. وقمنا بتقييمه على ستة مهام مختلطة من التعاون والمنافسة، وأظهر أداءً متميزًا مقارنة بالطرق الحالية. وأخيرًا، نستكشف تطبيق الأساليب متعددة الوكلاء على المهام الروبوتية عالية الأبعاد، ونُظهر أن منهجنا يمكن استخدامه لتعلم سياسات لامركزية في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp