HyperAIHyperAI

Command Palette

Search for a command to run...

GDI: إعادة التفكير في العوامل التي تُميّز التعلّم المعزّز عن التعلّم المُشرَّف

Anonymous

الملخص

أولًا، دفع الشبكة العميقة للقيمة (DQN) الباب أمام التعلم التكراري العميق (DRL) من خلال دمج التعلم العميق (DL) مع التعلم التكراري (RL)، حيث لاحظ أن توزيع البيانات المكتسبة يتغير أثناء عملية التدريب. ووجد DQN أن هذه الخاصية قد تؤدي إلى عدم استقرار في التدريب، لذا اقترح طرقًا فعالة للتعامل مع السلبيات المرتبطة بهذه الخاصية. بدلًا من التركيز على الجوانب السلبية، نرى أن من المهم جدًا في التعلم التكراري تقليل الفجوة بين توزيع البيانات المقدرة وتوزيع البيانات الحقيقية، بينما يفشل التعلم المراقب (SL) في تحقيق ذلك. من منظور جديد، نوسع النموذج الأساسي للتعلم التكراري المسمى التكرار السياسي العام (GPI) إلى نسخة أكثر شمولاً تُعرف بـ التكرار التوزيعي للبيانات العام (GDI). نرى أن العديد من خوارزميات وتقنيات التعلم التكراري يمكن توحيدُها ضمن إطار GDI، الذي يمكن اعتباره حالة خاصة واحدة من GDI. نقدم إثباتًا نظريًا يوضح لماذا يتفوق GDI على GPI وكيف يعمل. تم اقتراح عدة خوارزميات عملية مستندة إلى GDI للتحقق من فعاليتها وشموليتها. أثبتت التجارب التجريبيّة أداءً متقدمًا جدًا (SOTA) لدينا على بيئة التعلم البسيطة (ALE)، حيث حقق خوارزميتنا 9620.98% من المتوسط المُعادل للإنسان (HNS)، و1146.39% من الوسيط HNS، و22 كسرًا لسجلات العالم البشرية (HWRB) باستخدام فقط 200 مليون إطار تدريب. تهدف أبحاثنا إلى دفع بحوث التعلم التكراري إلى دخول رحلة التغلب على سجلات العالم البشرية والسعي نحو وكالات فائقة الإنسان من حيث الأداء والكفاءة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp