Command Palette
Search for a command to run...
تمثيل الأفعال المتقطعة والمتصاعدة لتعزيز التعلم العملي في ألعاب الفيديو
تمثيل الأفعال المتقطعة والمتصاعدة لتعزيز التعلم العملي في ألعاب الفيديو
Olivier Delalleau Maxim Peter Eloi Alonso Adrien Logut
الملخص
بينما تركز معظم الأبحاث الحالية في مجال التعلم التعزيزي (RL) على تحسين أداء الخوارزميات في بيئات مراقبة، فإن استخدام RL تحت القيود مثل تلك التي تواجهها صناعة ألعاب الفيديو يُدرس نادرًا. وفي إطار العمل تحت هذه القيود، نقترح خوارزمية SAC الهجينة، وهي امتداد لخوارزمية Soft Actor-Critic قادر على التعامل مع الأفعال المتقطعة والمستمرة والمعلمة بطريقة منهجية. نوضح أن Hybrid SAC يمكنه حل مهمة قيادة عالية السرعة في أحد ألعابنا بنجاح، وهو منافس للتقنيات الرائدة في مهام المعايير للأفعال المعلمة. كما نستكشف تأثير استخدام التدفقات التطبيعية لتعزيز قدرة السياسة التعبيرية بتكلفة حسابية ضئيلة، ونحدد آثارًا غير مرغوب فيها محتملة لـ SAC عند استخدامها مع التدفقات التطبيعية، والتي قد يتم معالجتها عن طريق تحسين هدف مختلف.