خوارزميات تحسين السياسة القريبة

نقترح عائلة جديدة من طرق تدرج السياسة للتعلم التعزيزي، والتي تتبدّل بين جمع البيانات من خلال التفاعل مع البيئة وتحسين دالة هدف بديلة باستخدام الصعود التدرجي العشوائي. بينما تقوم الطرق التقليدية لتدرج السياسة بتحديث التدرج مرة واحدة لكل عينة بيانات، نقترح دالة هدف جديدة تسمح بعدد متعدد من دورات التحديث باستخدام مجموعات صغيرة من البيانات. نطلق على هذه الطرق الجديدة اسم تحسين السياسة القريب (Proximal Policy Optimization - PPO)، وهي تتمتع ببعض فوائد تحسين السياسة في منطقة الثقة (Trust Region Policy Optimization - TRPO)، لكنها أسهل بكثير في التنفيذ وأكثر عمومية ولديها تعقيد عيّنة أفضل (تجريبيًا). قمنا بإجراء تجارب لاختبار PPO على مجموعة من المهام المعيارية، بما في ذلك الحركة الروبوتية المحاكاة ولعب ألعاب Atari، ونظهر أن PPO يتفوق على باقي طرق تدرج السياسة عبر الإنترنت، وأنه بشكل عام يحقق توازنًا مواتيًا بين تعقيد العيّنة والبساطة والزمن الجداري.