HyperAIHyperAI

Command Palette

Search for a command to run...

استراتيجيات التطور كبديل قابل للتوسع للتعلم التعزيزي

Tim Salimans; Jonathan Ho; Xi Chen; Szymon Sidor; Ilya Sutskever

الملخص

نستكشف استخدام استراتيجيات التطور (Evolution Strategies - ES)، وهي فئة من خوارزميات الأمثلة الصندوق الأسود، كبديل للتقنيات الشائعة القائمة على النماذج الديناميكية المحددة (MDP) في تعليم الآلة بالتعزيز (RL) مثل Q-التعلم وتدرج السياسات. أظهرت التجارب على منصات موجوكو وأتاري أن استراتيجية التطور هي استراتيجية حل قابلة للتطبيق تتوافق بشكل ممتاز مع عدد الوحدات المركزية المعالجة (CPUs) المتاحة: باستخدام استراتيجية اتصال جديدة تعتمد على الأرقام العشوائية المشتركة، تحتاج تنفيذتنا لاستراتيجيات التطور فقط إلى التواصل بالأعداد القياسية، مما يجعل من الممكن توسيع نطاقها إلى أكثر من ألف عامل متوازي. هذا يسمح لنا بحل مشكلة المشي للإنسان ثلاثي الأبعاد في غضون 10 دقائق والحصول على نتائج تنافسية في معظم ألعاب أتاري بعد ساعة واحدة من التدريب. بالإضافة إلى ذلك، نسلط الضوء على عدة مزايا لاستراتيجيات التطور كتقنية أمثلة الصندوق الأسود: فهي ثابتة بالنسبة لمعدل الإجراءات والمكافآت المتأخرة، تحتمل الأفق الزمني الطويل للغاية، ولا تحتاج إلى الخصم الزمني أو تقريب دالة القيمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp