الملخص

في العديد من السياقات الواقعية، يجب على فريق من الوكلاء تنسيق سلوكهم بينما يعملون بطريقة موزعة. وفي الوقت نفسه، غالباً ما يكون من الممكن تدريب الوكلاء بطريقة مركزية في بيئة محاكاة أو مختبر، حيث تكون المعلومات الشاملة عن الحالة متاحة ولا توجد قيود على الاتصال. يعتبر تعلم قيم الأفعال المشتركة المشروطة بمعلومات الحالة الإضافية طريقة جذابة للاستفادة من التعلم المركزي، ولكن أفضل استراتيجية لاستخراج السياسات الموزعة بعد ذلك غير واضحة. حلنا هو QMIX، وهو طريقة جديدة تعتمد على قيمة يمكنها تدريب السياسات الموزعة بطريقة مركزية ومنتهية إلى المنتهى (end-to-end). يستخدم QMIX شبكة تقوم بتقدير قيم الأفعال المشتركة كمزيج معقد وغير خطي للقيم الخاصة بكل وكيل والتي تعتمد فقط على الملاحظات المحلية. نقوم بفرض بنائي أن قيمة الفعل المشترك تكون متزايدة بشكل أحادي في القيم الخاصة بكل وكيل، مما يسمح بالتحسين القابل للتنفيذ لقيمة الفعل المشترك في التعلم خارج السياسة، ويضمن التناسق بين السياسات المركزية والموزعة. نقيم QMIX على مجموعة صعبة من مهام إدارة العمليات الدقيقة في StarCraft II (StarCraft II)، ونظهر أن QMIX يتفوق بشكل كبير على الأساليب الحالية للتعلم التعزيزي المتعدد الوكلاء التي تعتمد على القيمة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

QMIX: تحليل الدالة القيمية المونوتونية للتعلم التعزيزي العميق بين الوكلاء المتعددين

Tabish Rashid *1 Mikayel Samvelyan *2 Christian Schroeder de Witt 1 Gregory Farquhar 1 Jakob Foerster 1 Shimon Whiteson 1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

QMIX: تحليل الدالة القيمية المونوتونية للتعلم التعزيزي العميق بين الوكلاء المتعددين

Tabish Rashid *1 Mikayel Samvelyan *2 Christian Schroeder de Witt 1 Gregory Farquhar 1 Jakob Foerster 1 Shimon Whiteson 1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

QMIX: تحليل الدالة القيمية المونوتونية للتعلم التعزيزي العميق بين الوكلاء المتعددين

Tabish Rashid *1 Mikayel Samvelyan *2 Christian Schroeder de Witt 1 Gregory Farquhar 1 Jakob Foerster 1 Shimon Whiteson 1

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Tabish Rashid 1 Mikayel Samvelyan 2 Christian Schroeder de Witt 1 Gregory Farquhar 1 Jakob Foerster 1 Shimon Whiteson 1

Tabish Rashid 1 Mikayel Samvelyan 2 Christian Schroeder de Witt 1 Gregory Farquhar 1 Jakob Foerster 1 Shimon Whiteson 1

Tabish Rashid 1 Mikayel Samvelyan 2 Christian Schroeder de Witt 1 Gregory Farquhar 1 Jakob Foerster 1 Shimon Whiteson 1