HyperAIHyperAI

Command Palette

Search for a command to run...

وظيفة كمّية مُعامَلة بالكامل للتعلم التعزيزي التوزيعي

Derek Yang Li Zhao Zichuan Lin Tao Qin Jiang Bian Tieyan Liu

الملخص

يختلف التعلم القوي التوزيعي (Distributional Reinforcement Learning) عن التعلم القوي التقليدي في أنّه لا يُقدّر القيمة المتوقعة للعوائد الإجمالية، بل يقدّر التوزيعات، وقد حقق أداءً متقدماً على ألعاب أتاري. وتكمن التحديات الرئيسية في الخوارزميات العملية للتعلم القوي التوزيعي في كيفية معاملة التوزيعات المقدرة لتقريب التوزيع المستمر الحقيقي بشكل أفضل. فتُعامَل الخوارزميات الحالية للتعلم القوي التوزيعي إما الجانب الاحتمالي أو جانبي قيم العائد في دالة التوزيع، بينما يُبقي الجانب الآخر ثابتاً بشكل موحد كما في C51 أو QR-DQN، أو يتم عينته عشوائياً كما في IQN. في هذا البحث، نقترح دالة كمّية مُعامَلة بالكامل (fully parameterized quantile function) تُعامِل كلا المحورين: محور كسور الكمية (أي المحور السيني) ومحور القيم (أي المحور الصادي) في سياق التعلم القوي التوزيعي. يحتوي خوارزميتنا على شبكة مقترحة للكسور (fraction proposal network) تولّد مجموعة منفصلة من كسور الكمية، وشبكة قيم الكمية (quantile value network) تُقدّم القيم المقابلة لكسر الكمية. وتدرب الشبكتان معًا لتحقيق أفضل تقريب للتوزيع الحقيقي. وأظهرت التجارب على 55 لعبة من ألعاب أتاري أن خوارزميتنا تتفوّق بشكل ملحوظ على الخوارزميات الحالية للتعلم القوي التوزيعي، وتحطّ رقماً قياسياً جديداً في بيئة تعلّم أتاري بالنسبة للوكلاء غير الموزّعين.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp