HyperAIHyperAI
منذ 11 أيام

GDI: إعادة التفكير في ما يُميّز التعلم المعزز عن التعلم المراقب

Jiajun Fan, Changnan Xiao, Yue Huang
GDI: إعادة التفكير في ما يُميّز التعلم المعزز عن التعلم المراقب
الملخص

أطلق شبكة ديب كيو (DQN) الباب أمام التعلم التكراري العميق (DRL) من خلال دمج التعلم العميق (DL) مع التعلم التكراري (RL)، حيث لاحظ أن توزيع البيانات المكتسبة يتغير خلال عملية التدريب. ووجد DQN أن هذه الخاصية قد تؤدي إلى عدم استقرار في التدريب، لذا قدم طرقًا فعّالة للتعامل مع العيوب الناتجة عن هذه الخاصية. بدلًا من التركيز على الجوانب السلبية، نرى أن من الحاسم في التعلم التكراري تقليل الفجوة بين توزيع البيانات المقدّر وتوزيع البيانات الحقيقية، وهو ما يفشل فيه التعلم المراقب (SL). من منظور جديد، نوسع النموذج الأساسي للتعلم التكراري المسمى التكرار السياسي العام (GPI) إلى نسخة أكثر شمولاً تُعرف بـ "تكرار توزيع البيانات العام" (GDI). نرى أن العديد من خوارزميات وتقنيات التعلم التكراري يمكن دمجها ضمن إطار GDI، والذي يمكن اعتباره حالة خاصة من GDI. ونقدم أدلة نظرية توضح لماذا يفوق GDI GPI، وكيف يعمل بشكل فعّال. تم اقتراح عدة خوارزميات عملية قائمة على GDI للتحقق من فعالية وقابلية التوسع لهذه المنهجية. وقد أثبتت التجارب التجريبية أداءً من الطراز الرائد (SOTA) على بيئة التعلم(arcade) (ALE)، حيث حقق خوارزميتنا 9620.98٪ من متوسط التقييم المُعادل للإنسان (HNS)، و1146.39٪ من القيمة الوسطية لـ HNS، وتحطيم 22 سجلًا عالميًا بشريًا (HWRB)، باستخدام فقط 200 مليون إطار تدريب. تهدف أبحاثنا إلى دفع تقدم بحوث التعلم التكراري نحو رحلة التغلب على السجلات العالمية البشرية والبحث عن وكالات فائقة البشرية حقيقية من حيث الأداء والكفاءة.