HyperAI

تحسين السياسة القريبة

تحسين السياسة القريبة (PPO) هي خوارزمية في مجال التعلم التعزيزي يتم استخدامها لتدريب وظائف اتخاذ القرار لدى وكلاء الكمبيوتر لإكمال المهام الصعبة. تم تطوير PPO بواسطة جون شولمان في عام 2017 وأصبح خوارزمية التعلم التعزيزي الافتراضية في شركة الذكاء الاصطناعي الأمريكية OpenAI. في عام 2018، حقق PPO نجاحات مختلفة، مثل التحكم في ذراع روبوتية، والتغلب على لاعبين محترفين في Dota 2، والأداء الجيد في ألعاب Atari. يصف العديد من الخبراء تقنية PPO بأنها الأكثر تقدمًا لأنها تحقق توازنًا جيدًا بين الأداء والفهم. بالمقارنة مع الخوارزميات الأخرى، فإن المزايا الرئيسية الثلاث لـ PPO هي البساطة والاستقرار وكفاءة العينة.

مزايا PPO

  • بساطة:يقترب PPO مما يفعله TRPO دون القيام بالكثير من العمليات الحسابية. يستخدم تحسينًا من الدرجة الأولى (وظيفة القطع) لتقييد تحديث السياسة، بينما يستخدم TRPO قيود تباعد KL خارج وظيفة الهدف (تحسينًا من الدرجة الثانية). بالمقارنة مع طريقة TRPO، فإن طريقة PPO سهلة نسبيًا في التنفيذ وتستغرق وقتًا أقل في الحساب. لذلك، فإن استخدام PPO في المشاكل واسعة النطاق يعد أرخص وأكثر كفاءة.
  • استقرار:في حين تتطلب خوارزميات التعلم التعزيزي الأخرى ضبط المعلمات الفائقة، فإن PPO لا تتطلب بالضرورة ضبط المعلمات الفائقة (إبسيلون 0.2 جيد في معظم الحالات). علاوة على ذلك، لا يتطلب PPO تقنيات تحسين معقدة. يمكن ممارسته بسهولة باستخدام أطر التعلم العميق القياسية وتعميمه على مجموعة واسعة من المهام.
  • كفاءة العينة:تشير كفاءة العينة إلى ما إذا كانت الخوارزمية تتطلب بيانات أكثر أو أقل لتدريب سياسة جيدة. تحقق PPO كفاءة العينة بسبب استخدام الأهداف البديلة. يتيح هدف الاستبدال لـ PPO تجنب انحراف السياسة الجديدة كثيرًا عن السياسة القديمة؛ تعمل وظيفة القطع على تنظيم تحديث السياسة وإعادة استخدام بيانات التدريب. تُعد كفاءة العينة مفيدة بشكل خاص للمهام المعقدة وعالية الأبعاد، حيث قد يكون جمع البيانات وحسابها مكلفًا.

مراجع

【1】https://en.wikipedia.org/wiki/Proximal_Policy_Optimization