HyperAIHyperAI
منذ 2 أشهر

تحسين السياسة مع المسافة الاحتمالية المُعَاقَبَة للنقطة: بديل لتحسين السياسة القريبة

Xiangxiang Chu
تحسين السياسة مع المسافة الاحتمالية المُعَاقَبَة للنقطة: بديل لتحسين السياسة القريبة
الملخص

بصفتها النسخة الأكثر نجاحًا وتحسينًا لخوارزمية تحسين السياسة في منطقة الثقة (TRPO)، تم تطبيق خوارزمية تحسين السياسة القريبة (PPO) على نطاق واسع في مجالات مختلفة بفضل عدة مزايا منها: استخدام البيانات بكفاءة، سهولة التنفيذ، والموازاة الجيدة. في هذا البحث، يتم اقتراح خوارزمية تعليم بالتعزيز من الدرجة الأولى تُسمى "تحسين السياسة مع المسافة الاحتمالية للنقطة المُعاقبة" (POP3D)، وهي حد أدنى لمربع الاختلاف الكلي للتباين. أولاً، نتحدث عن عيوب بعض الخوارزميات الشائعة المستخدمة، والتي كانت جزءًا من الدوافع وراء طريقة عملنا. ثانيًا، نتناول كيفية التغلب على هذه العيوب باستخدام POP3D. ثالثًا، نغوص في آلية عملها من وجهة نظر متعدد الحلول. رابعًا وأخيرًا، نقوم بمقارنة كمية بين عدة خوارزميات حديثة بناءً على مقاييس شائعة. تظهر نتائج المحاكاة أن POP3D تنافسية للغاية مقارنة بـ PPO. بالإضافة إلى ذلك، تم إصدار شفرتنا المصدرية في https://github.com/paperwithcode/pop3d.