منذ 4 أشهر

GDI: إعادة التفكير في العوامل التي تُميّز التعلّم المعزّز عن التعلّم المُشرَّف

{Anonymous}

الملخص

أولًا، دفع الشبكة العميقة للقيمة (DQN) الباب أمام التعلم التكراري العميق (DRL) من خلال دمج التعلم العميق (DL) مع التعلم التكراري (RL)، حيث لاحظ أن توزيع البيانات المكتسبة يتغير أثناء عملية التدريب. ووجد DQN أن هذه الخاصية قد تؤدي إلى عدم استقرار في التدريب، لذا اقترح طرقًا فعالة للتعامل مع السلبيات المرتبطة بهذه الخاصية. بدلًا من التركيز على الجوانب السلبية، نرى أن من المهم جدًا في التعلم التكراري تقليل الفجوة بين توزيع البيانات المقدرة وتوزيع البيانات الحقيقية، بينما يفشل التعلم المراقب (SL) في تحقيق ذلك. من منظور جديد، نوسع النموذج الأساسي للتعلم التكراري المسمى التكرار السياسي العام (GPI) إلى نسخة أكثر شمولاً تُعرف بـ التكرار التوزيعي للبيانات العام (GDI). نرى أن العديد من خوارزميات وتقنيات التعلم التكراري يمكن توحيدُها ضمن إطار GDI، الذي يمكن اعتباره حالة خاصة واحدة من GDI. نقدم إثباتًا نظريًا يوضح لماذا يتفوق GDI على GPI وكيف يعمل. تم اقتراح عدة خوارزميات عملية مستندة إلى GDI للتحقق من فعاليتها وشموليتها. أثبتت التجارب التجريبيّة أداءً متقدمًا جدًا (SOTA) لدينا على بيئة التعلم البسيطة (ALE)، حيث حقق خوارزميتنا 9620.98% من المتوسط المُعادل للإنسان (HNS)، و1146.39% من الوسيط HNS، و22 كسرًا لسجلات العالم البشرية (HWRB) باستخدام فقط 200 مليون إطار تدريب. تهدف أبحاثنا إلى دفع بحوث التعلم التكراري إلى دخول رحلة التغلب على سجلات العالم البشرية والسعي نحو وكالات فائقة الإنسان من حيث الأداء والكفاءة.

المعايير القياسية

معيار قياسي	المنهجية	المقاييس
atari-games-on-atari-2600-alien	GDI-H3(1B frames)	Score: 279700
atari-games-on-atari-2600-centipede	GDI-H3(1B frames)	Score: 1359533
atari-games-on-atari-2600-kung-fu-master	GDI-H3 (200M)	Score: 1666000

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي

وحدات معالجة رسومات جاهزة

أفضل الأسعار

ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp