HyperAIHyperAI
منذ 17 أيام

وظيفة كمّية مُعامَلة بالكامل للتعلم التعزيزي التوزيعي

Derek Yang, Li Zhao, Zichuan Lin, Tao Qin, Jiang Bian, Tieyan Liu
وظيفة كمّية مُعامَلة بالكامل للتعلم التعزيزي التوزيعي
الملخص

يختلف التعلم القوي التوزيعي (Distributional Reinforcement Learning) عن التعلم القوي التقليدي في أنّه لا يُقدّر القيمة المتوقعة للعوائد الإجمالية، بل يقدّر التوزيعات، وقد حقق أداءً متقدماً على ألعاب أتاري. وتكمن التحديات الرئيسية في الخوارزميات العملية للتعلم القوي التوزيعي في كيفية معاملة التوزيعات المقدرة لتقريب التوزيع المستمر الحقيقي بشكل أفضل. فتُعامَل الخوارزميات الحالية للتعلم القوي التوزيعي إما الجانب الاحتمالي أو جانبي قيم العائد في دالة التوزيع، بينما يُبقي الجانب الآخر ثابتاً بشكل موحد كما في C51 أو QR-DQN، أو يتم عينته عشوائياً كما في IQN. في هذا البحث، نقترح دالة كمّية مُعامَلة بالكامل (fully parameterized quantile function) تُعامِل كلا المحورين: محور كسور الكمية (أي المحور السيني) ومحور القيم (أي المحور الصادي) في سياق التعلم القوي التوزيعي. يحتوي خوارزميتنا على شبكة مقترحة للكسور (fraction proposal network) تولّد مجموعة منفصلة من كسور الكمية، وشبكة قيم الكمية (quantile value network) تُقدّم القيم المقابلة لكسر الكمية. وتدرب الشبكتان معًا لتحقيق أفضل تقريب للتوزيع الحقيقي. وأظهرت التجارب على 55 لعبة من ألعاب أتاري أن خوارزميتنا تتفوّق بشكل ملحوظ على الخوارزميات الحالية للتعلم القوي التوزيعي، وتحطّ رقماً قياسياً جديداً في بيئة تعلّم أتاري بالنسبة للوكلاء غير الموزّعين.

وظيفة كمّية مُعامَلة بالكامل للتعلم التعزيزي التوزيعي | أحدث الأوراق البحثية | HyperAI