منذ 2 أشهر
متعدد الوكلاء الممثل-الناقد للبيئات التعاونية-التنافسية المختلطة
Ryan Lowe; Yi Wu; Aviv Tamar; Jean Harb; Pieter Abbeel; Igor Mordatch

الملخص
نستكشف طرق التعلم العميق المعزز في مجالات الوكلاء المتعددين. نبدأ بتحليل صعوبة الخوارزميات التقليدية في الحالة متعددة الوكلاء: يواجه التعلم-Q تحديًا بسبب عدم ثبات البيئة بشكل متأصل، بينما تعاني خوارزمية التدرج السلسية من تباين يزيد مع زيادة عدد الوكلاء. ثم نقدم تعديلًا لطرق الفاعل-الناقد (actor-critic) التي تأخذ بعين الاعتبار سياسات الأفعال للوكلاء الآخرين وتتمكن من تعلم سياسات تتطلب تنسيقًا معقدًا بين الوكلاء المتعددين. بالإضافة إلى ذلك، نقدم نظام تدريب يستخدم مجموعة من السياسات لكل وكيل يؤدي إلى سياسات أكثر قوة في بيئات الوكلاء المتعددين. نظهر قوة نهجنا مقارنة بالطرق الموجودة في السيناريوهات التعاونية والمنافسة، حيث يتمكن سكان الوكلاء من اكتشاف استراتيجيات تنسيق مختلفة على الصعيدين المادي والمعلوماتي.