الانحدار الموزون بالميزة: تعلم تعزيز خارج النموذج بسيط وقابل للتوسع

في هذه الورقة، نهدف إلى تطوير خوارزمية بسيطة وقابلة للتوسع لتعلم التقويم (reinforcement learning)، تستخدم طرق التعلم المراقبة القياسية كمكوّنات فرعية. هدفنا هو خوارزمية تُستخدم فقط دوال خسارة بسيطة ومتقاربة من نوع ماكسيموم الاحتمال (maximum likelihood)، مع القدرة على استغلال البيانات غير المُستندة إلى السياسة الحالية (off-policy data). يتكون النهج المُقترح، الذي نسميه الانحدار الموزون حسب الميزة (Advantage-Weighted Regression - AWR)، من خطوتين مُراقبتين قياسيتين: الأولى تُجري انحدارًا على قيم القيمة المُستهدفة لدالة القيمة (value function)، والثانية تُجري انحدارًا على الإجراءات المستهدفة المُوزونة للسياسة (policy). يتميز هذا الأسلوب بالبساطة والعمومية، ويمكنه التعامل مع الإجراءات المستمرة والمنفصلة، كما يمكن تنفيذه ببضع سطور من الكود فوق الطرق القياسية للتعلم المراقب. نقدّم تبريرًا نظريًا لـ AWR، ونحلل خصائصها عند دمج بيانات غير مُستندة إلى السياسة المستمدة من ذاكرة التجربة (experience replay). قمنا بتقييم AWR على مجموعة من مهام المعيار القياسية في OpenAI Gym، وبيّنا أنها تحقق أداءً تنافسيًا مقارنة بعدة خوارزميات حديثة مُثبتة في مجال التعلم بالتعزيز. كما أظهرت AWR قدرتها على اكتساب سياسات أكثر فعالية من معظم الخوارزميات غير المُستندة إلى السياسة عند التعلّم من مجموعات بيانات ثابتة بالكامل دون تفاعلات إضافية مع البيئة. بالإضافة إلى ذلك، نُظهر كفاءة خوارزميتنا في مهام التحكم المستمرة الصعبة، باستخدام شخصيات مُحاكاة معقدة للغاية.