HyperAIHyperAI

Command Palette

Search for a command to run...

QMIX: تحليل الدالة القيمية المونوتونية للتعلم التعزيزي العميق بين الوكلاء المتعددين

Tabish Rashid *1 Mikayel Samvelyan *2 Christian Schroeder de Witt 1 Gregory Farquhar 1 Jakob Foerster 1 Shimon Whiteson 1

الملخص

في العديد من السياقات الواقعية، يجب على فريق من الوكلاء تنسيق سلوكهم بينما يعملون بطريقة موزعة. وفي الوقت نفسه، غالباً ما يكون من الممكن تدريب الوكلاء بطريقة مركزية في بيئة محاكاة أو مختبر، حيث تكون المعلومات الشاملة عن الحالة متاحة ولا توجد قيود على الاتصال. يعتبر تعلم قيم الأفعال المشتركة المشروطة بمعلومات الحالة الإضافية طريقة جذابة للاستفادة من التعلم المركزي، ولكن أفضل استراتيجية لاستخراج السياسات الموزعة بعد ذلك غير واضحة. حلنا هو QMIX، وهو طريقة جديدة تعتمد على قيمة يمكنها تدريب السياسات الموزعة بطريقة مركزية ومنتهية إلى المنتهى (end-to-end). يستخدم QMIX شبكة تقوم بتقدير قيم الأفعال المشتركة كمزيج معقد وغير خطي للقيم الخاصة بكل وكيل والتي تعتمد فقط على الملاحظات المحلية. نقوم بفرض بنائي أن قيمة الفعل المشترك تكون متزايدة بشكل أحادي في القيم الخاصة بكل وكيل، مما يسمح بالتحسين القابل للتنفيذ لقيمة الفعل المشترك في التعلم خارج السياسة، ويضمن التناسق بين السياسات المركزية والموزعة. نقيم QMIX على مجموعة صعبة من مهام إدارة العمليات الدقيقة في StarCraft II (StarCraft II)، ونظهر أن QMIX يتفوق بشكل كبير على الأساليب الحالية للتعلم التعزيزي المتعدد الوكلاء التي تعتمد على القيمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp