GDI: إعادة التفكير في العوامل التي تُميّز التعلّم المعزّز عن التعلّم المُشرَّف
أولًا، دفع الشبكة العميقة للقيمة (DQN) الباب أمام التعلم التكراري العميق (DRL) من خلال دمج التعلم العميق (DL) مع التعلم التكراري (RL)، حيث لاحظ أن توزيع البيانات المكتسبة يتغير أثناء عملية التدريب. ووجد DQN أن هذه الخاصية قد تؤدي إلى عدم استقرار في التدريب، لذا اقترح طرقًا فعالة للتعامل مع السلبيات المرتبطة بهذه الخاصية. بدلًا من التركيز على الجوانب السلبية، نرى أن من المهم جدًا في التعلم التكراري تقليل الفجوة بين توزيع البيانات المقدرة وتوزيع البيانات الحقيقية، بينما يفشل التعلم المراقب (SL) في تحقيق ذلك. من منظور جديد، نوسع النموذج الأساسي للتعلم التكراري المسمى التكرار السياسي العام (GPI) إلى نسخة أكثر شمولاً تُعرف بـ التكرار التوزيعي للبيانات العام (GDI). نرى أن العديد من خوارزميات وتقنيات التعلم التكراري يمكن توحيدُها ضمن إطار GDI، الذي يمكن اعتباره حالة خاصة واحدة من GDI. نقدم إثباتًا نظريًا يوضح لماذا يتفوق GDI على GPI وكيف يعمل. تم اقتراح عدة خوارزميات عملية مستندة إلى GDI للتحقق من فعاليتها وشموليتها. أثبتت التجارب التجريبيّة أداءً متقدمًا جدًا (SOTA) لدينا على بيئة التعلم البسيطة (ALE)، حيث حقق خوارزميتنا 9620.98% من المتوسط المُعادل للإنسان (HNS)، و1146.39% من الوسيط HNS، و22 كسرًا لسجلات العالم البشرية (HWRB) باستخدام فقط 200 مليون إطار تدريب. تهدف أبحاثنا إلى دفع بحوث التعلم التكراري إلى دخول رحلة التغلب على سجلات العالم البشرية والسعي نحو وكالات فائقة الإنسان من حيث الأداء والكفاءة.