توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة

نتناول مشكلة توليد الكود من ردود الفعل التنفيذية المتعددة الأدوار. الطرق الحالية إما تولد الكود دون أي رد فعل أو تستعمل التعلم التعزيزي الهرمي المعقد لتحسين المكافآت المتعددة الأدوار. نقترح نهجًا بسيطًا ومعقول النمو، يُعرف بـ CODE (كود)، والذي يحل مشكلة توليد الكود المتعدد الأدوار باستخدام مكافآت خطوة واحدة فقط. الرؤية الأساسية لدينا هي أن توليد الكود هو عملية قابلة للتعافي في خطوة واحدة MDP (العملية الديناميكية المرتبطة بالقرار)، حيث يمكن استعادة الكود الصحيح من أي حالة كود وسيطة في دور واحد. يعمل كود على تدريب مولد بشكل متكرر لتوفير حلول كود مشروطة بردود الفعل التنفيذية المتعددة الأدوار، وتدرب مدقق لتقييم الكود الجديد المُولد. أظهرت التقييمات التجريبية أن نهجنا يحقق تحسينات كبيرة على أساسيات الطليعة الحالية. نقدم تحليلًا لخيارات تصميم نماذج المكافآت والسياسة، ونوضح فعالية كود في الاستفادة من ردود الفعل التنفيذية.