HyperAIHyperAI

Command Palette

Search for a command to run...

خوارزميات تحسين السياسة القريبة

John Schulman; Filip Wolski; Prafulla Dhariwal; Alec Radford; Oleg Klimov

الملخص

نقترح عائلة جديدة من طرق تدرج السياسة للتعلم التعزيزي، والتي تتبدّل بين جمع البيانات من خلال التفاعل مع البيئة وتحسين دالة هدف بديلة باستخدام الصعود التدرجي العشوائي. بينما تقوم الطرق التقليدية لتدرج السياسة بتحديث التدرج مرة واحدة لكل عينة بيانات، نقترح دالة هدف جديدة تسمح بعدد متعدد من دورات التحديث باستخدام مجموعات صغيرة من البيانات. نطلق على هذه الطرق الجديدة اسم تحسين السياسة القريب (Proximal Policy Optimization - PPO)، وهي تتمتع ببعض فوائد تحسين السياسة في منطقة الثقة (Trust Region Policy Optimization - TRPO)، لكنها أسهل بكثير في التنفيذ وأكثر عمومية ولديها تعقيد عيّنة أفضل (تجريبيًا). قمنا بإجراء تجارب لاختبار PPO على مجموعة من المهام المعيارية، بما في ذلك الحركة الروبوتية المحاكاة ولعب ألعاب Atari، ونظهر أن PPO يتفوق على باقي طرق تدرج السياسة عبر الإنترنت، وأنه بشكل عام يحقق توازنًا مواتيًا بين تعقيد العيّنة والبساطة والزمن الجداري.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp