التحكم بالأفعال المعلمة
في أبحاث التعلم التعزيزي، تركز معظم الأوراق على سلوك الوكلاء في فضاءات أفعال منفصلة أو مستمرة. ومع ذلك، عند تدريب الوكلاء على لعب الألعاب الإلكترونية، غالباً ما يكون من الضروري التعامل مع الأفعال المركبة التي تحتوي على مكونات منفصلة ومستمرة. يُشار إلى هذا النوع من المهام بـ "التحكم بالأفعال المعلمة"، وهو يهدف إلى تصميم خوارزميات تمكن الوكلاء من التعامل مع صنع القرار المنفصل وتحسين المعلمات المستمرة في آن واحد، مما يحقق تعلمًا وتنفيذًا كفاءيين في بيئات معقدة. قيمة هذه المهمة التطبيقية تكمن في تعزيز مرونة وقابلية التكيف للوكلاء في بيئات تفاعلية متعددة الأوضاع مثل الألعاب.