HyperAI

الملخص

نقدّم إطار العمل التدرّجي للسياسة (PPG)، وهو إطار لتعلم التفعيل الذي يُعدّل الطرق التقليدية المُطبّقة على سياسة مُستندة إلى المُراقبة (on-policy) من خلال تقسيم تدريب السياسة ودالة القيمة إلى مراحل منفصلة. في الأساليب السابقة، كان يجب الاختيار بين استخدام شبكة مشتركة أو شبكات منفصلة لتمثيل السياسة ودالة القيمة. إذ يُقلّل استخدام شبكات منفصلة من التداخل بين الأهداف، بينما يُتيح استخدام شبكة مشتركة مشاركة الميزات المفيدة. ويُمكن لـ PPG تحقيق أفضل ما في كلا الجانبين من خلال تقسيم عملية التحسين إلى مرحلتين: إحداهما تُعزّز التدريب، والأخرى تُستخلص الميزات. كما يُتيح PPG تحسين دالة القيمة بشكل أكثر عدوانية، مع مستوى أعلى من إعادة استخدام العينات. مقارنةً بـ PPO، نلاحظ أن PPG يُحسّن بشكل كبير كفاءة استخدام العينات في معيار Procgen التحديّ، وهو معيار معروف بصعوبته.

الملخص

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مُتجه التقييم الطوري

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مُتجه التقييم الطوري

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مُتجه التقييم الطوري

Karl Cobbe Jacob Hilton Oleg Klimov John Schulman

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters