DisCor: تغذية راجعة تصحيحية في التعلم المعزز من خلال تصحيح التوزيع

يمكن للتعلم التعميقي العميق أن يتعلم سياسات فعّالة لطائفة واسعة من المهام، لكنه معروف بصعوبة استخدامه بسبب عدم الاستقرار والحساسية تجاه المعاملات الفائقة (hyperparameters). تبقى أسباب هذه الصعوبة غير واضحة. عند استخدام الطرق المراقبة القياسية (مثل تلك المستخدمة في مشاكل الباندات)، يوفر جمع البيانات على السياسة (on-policy data collection) "سلبيات صعبة" (hard negatives) تصحح النموذج بالضبط في الحالات والإجراءات التي من المرجح أن تزورها السياسة. نسمي هذه الظاهرة "تغذية راجعة تصحيحية" (corrective feedback). نوضح أن خوارزميات تعلم Q القائمة على التمديد (bootstrapping-based Q-learning) لا تُستفيد بالضرورة من هذه التغذية الراجعة التصحيحية، وأن التدريب على التجارب المجمعة بواسطة الخوارزمية لا يكفي لتصحيح الأخطاء في دالة Q. في الواقع، قد تُظهر خوارزميات تعلم Q والطرق المرتبطة بها تفاعلات مرضية (pathological interactions) بين توزيع التجارب التي يجمعها الوكيل وبين السياسة الناتجة عن التدريب على هذه التجارب، مما يؤدي إلى عدم استقرار محتمل، وتوافق غير مثالي، ونتائج ضعيفة عند التعلم من مكافآت مشوّشة أو نادرة أو متأخرة. نُظهر وجود هذه المشكلة من خلال تحليل نظري وتجريبي. ثم نُظهر أن تصحيحًا محددًا لتوزيع البيانات يمكن أن يخفف من هذه المشكلة. استنادًا إلى هذه الملاحظات، نقترح خوارزمية جديدة تُسمى DisCor، والتي تحسب تقريبًا لتوزيع مثالي، وتستخدمه لإعادة وزن الانتقالات المستخدمة في التدريب، مما يؤدي إلى تحسينات كبيرة في مجموعة متنوعة من البيئات الصعبة للتعلم بالتعزيز، مثل التعلم متعدد المهام، والتعلم من إشارات مكافآت مشوّشة. يُمكن الاطلاع على منشور مدونة يلخّص هذه الدراسة عبر الرابط التالي: https://bair.berkeley.edu/blog/2020/03/16/discor/.