استراتيجيات التطور كبديل قابل للتوسع للتعلم التعزيزي

نستكشف استخدام استراتيجيات التطور (Evolution Strategies - ES)، وهي فئة من خوارزميات الأمثلة الصندوق الأسود، كبديل للتقنيات الشائعة القائمة على النماذج الديناميكية المحددة (MDP) في تعليم الآلة بالتعزيز (RL) مثل Q-التعلم وتدرج السياسات. أظهرت التجارب على منصات موجوكو وأتاري أن استراتيجية التطور هي استراتيجية حل قابلة للتطبيق تتوافق بشكل ممتاز مع عدد الوحدات المركزية المعالجة (CPUs) المتاحة: باستخدام استراتيجية اتصال جديدة تعتمد على الأرقام العشوائية المشتركة، تحتاج تنفيذتنا لاستراتيجيات التطور فقط إلى التواصل بالأعداد القياسية، مما يجعل من الممكن توسيع نطاقها إلى أكثر من ألف عامل متوازي. هذا يسمح لنا بحل مشكلة المشي للإنسان ثلاثي الأبعاد في غضون 10 دقائق والحصول على نتائج تنافسية في معظم ألعاب أتاري بعد ساعة واحدة من التدريب. بالإضافة إلى ذلك، نسلط الضوء على عدة مزايا لاستراتيجيات التطور كتقنية أمثلة الصندوق الأسود: فهي ثابتة بالنسبة لمعدل الإجراءات والمكافآت المتأخرة، تحتمل الأفق الزمني الطويل للغاية، ولا تحتاج إلى الخصم الزمني أو تقريب دالة القيمة.