HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين السياسة مع المسافة الاحتمالية المُعَاقَبَة للنقطة: بديل لتحسين السياسة القريبة

Xiangxiang Chu

الملخص

بصفتها النسخة الأكثر نجاحًا وتحسينًا لخوارزمية تحسين السياسة في منطقة الثقة (TRPO)، تم تطبيق خوارزمية تحسين السياسة القريبة (PPO) على نطاق واسع في مجالات مختلفة بفضل عدة مزايا منها: استخدام البيانات بكفاءة، سهولة التنفيذ، والموازاة الجيدة. في هذا البحث، يتم اقتراح خوارزمية تعليم بالتعزيز من الدرجة الأولى تُسمى "تحسين السياسة مع المسافة الاحتمالية للنقطة المُعاقبة" (POP3D)، وهي حد أدنى لمربع الاختلاف الكلي للتباين. أولاً، نتحدث عن عيوب بعض الخوارزميات الشائعة المستخدمة، والتي كانت جزءًا من الدوافع وراء طريقة عملنا. ثانيًا، نتناول كيفية التغلب على هذه العيوب باستخدام POP3D. ثالثًا، نغوص في آلية عملها من وجهة نظر متعدد الحلول. رابعًا وأخيرًا، نقوم بمقارنة كمية بين عدة خوارزميات حديثة بناءً على مقاييس شائعة. تظهر نتائج المحاكاة أن POP3D تنافسية للغاية مقارنة بـ PPO. بالإضافة إلى ذلك، تم إصدار شفرتنا المصدرية في https://github.com/paperwithcode/pop3d.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp