HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

GDI: إعادة التفكير في العوامل التي تُميّز التعلّم المعزّز عن التعلّم المُشرَّف

{Anonymous}

الملخص

أولًا، دفع الشبكة العميقة للقيمة (DQN) الباب أمام التعلم التكراري العميق (DRL) من خلال دمج التعلم العميق (DL) مع التعلم التكراري (RL)، حيث لاحظ أن توزيع البيانات المكتسبة يتغير أثناء عملية التدريب. ووجد DQN أن هذه الخاصية قد تؤدي إلى عدم استقرار في التدريب، لذا اقترح طرقًا فعالة للتعامل مع السلبيات المرتبطة بهذه الخاصية. بدلًا من التركيز على الجوانب السلبية، نرى أن من المهم جدًا في التعلم التكراري تقليل الفجوة بين توزيع البيانات المقدرة وتوزيع البيانات الحقيقية، بينما يفشل التعلم المراقب (SL) في تحقيق ذلك. من منظور جديد، نوسع النموذج الأساسي للتعلم التكراري المسمى التكرار السياسي العام (GPI) إلى نسخة أكثر شمولاً تُعرف بـ التكرار التوزيعي للبيانات العام (GDI). نرى أن العديد من خوارزميات وتقنيات التعلم التكراري يمكن توحيدُها ضمن إطار GDI، الذي يمكن اعتباره حالة خاصة واحدة من GDI. نقدم إثباتًا نظريًا يوضح لماذا يتفوق GDI على GPI وكيف يعمل. تم اقتراح عدة خوارزميات عملية مستندة إلى GDI للتحقق من فعاليتها وشموليتها. أثبتت التجارب التجريبيّة أداءً متقدمًا جدًا (SOTA) لدينا على بيئة التعلم البسيطة (ALE)، حيث حقق خوارزميتنا 9620.98% من المتوسط المُعادل للإنسان (HNS)، و1146.39% من الوسيط HNS، و22 كسرًا لسجلات العالم البشرية (HWRB) باستخدام فقط 200 مليون إطار تدريب. تهدف أبحاثنا إلى دفع بحوث التعلم التكراري إلى دخول رحلة التغلب على سجلات العالم البشرية والسعي نحو وكالات فائقة الإنسان من حيث الأداء والكفاءة.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
atari-games-on-atari-2600-alienGDI-H3(1B frames)
Score: 279700
atari-games-on-atari-2600-centipedeGDI-H3(1B frames)
Score: 1359533
atari-games-on-atari-2600-kung-fu-masterGDI-H3 (200M)
Score: 1666000

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
GDI: إعادة التفكير في العوامل التي تُميّز التعلّم المعزّز عن التعلّم المُشرَّف | الأوراق البحثية | HyperAI