HyperAIHyperAI

Command Palette

Search for a command to run...

مُتجه التقييم الطوري

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

الملخص

نقدّم إطار العمل التدرّجي للسياسة (PPG)، وهو إطار لتعلم التفعيل الذي يُعدّل الطرق التقليدية المُطبّقة على سياسة مُستندة إلى المُراقبة (on-policy) من خلال تقسيم تدريب السياسة ودالة القيمة إلى مراحل منفصلة. في الأساليب السابقة، كان يجب الاختيار بين استخدام شبكة مشتركة أو شبكات منفصلة لتمثيل السياسة ودالة القيمة. إذ يُقلّل استخدام شبكات منفصلة من التداخل بين الأهداف، بينما يُتيح استخدام شبكة مشتركة مشاركة الميزات المفيدة. ويُمكن لـ PPG تحقيق أفضل ما في كلا الجانبين من خلال تقسيم عملية التحسين إلى مرحلتين: إحداهما تُعزّز التدريب، والأخرى تُستخلص الميزات. كما يُتيح PPG تحسين دالة القيمة بشكل أكثر عدوانية، مع مستوى أعلى من إعادة استخدام العينات. مقارنةً بـ PPO، نلاحظ أن PPG يُحسّن بشكل كبير كفاءة استخدام العينات في معيار Procgen التحديّ، وهو معيار معروف بصعوبته.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُتجه التقييم الطوري | مستندات | HyperAI