Command Palette
Search for a command to run...
توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة
توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة
Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury
Abstract
نتناول مشكلة توليد الكود من ردود الفعل التنفيذية المتعددة الأدوار. الطرق الحالية إما تولد الكود دون أي رد فعل أو تستعمل التعلم التعزيزي الهرمي المعقد لتحسين المكافآت المتعددة الأدوار. نقترح نهجًا بسيطًا ومعقول النمو، يُعرف بـ CODE (كود)، والذي يحل مشكلة توليد الكود المتعدد الأدوار باستخدام مكافآت خطوة واحدة فقط. الرؤية الأساسية لدينا هي أن توليد الكود هو عملية قابلة للتعافي في خطوة واحدة MDP (العملية الديناميكية المرتبطة بالقرار)، حيث يمكن استعادة الكود الصحيح من أي حالة كود وسيطة في دور واحد. يعمل كود على تدريب مولد بشكل متكرر لتوفير حلول كود مشروطة بردود الفعل التنفيذية المتعددة الأدوار، وتدرب مدقق لتقييم الكود الجديد المُولد. أظهرت التقييمات التجريبية أن نهجنا يحقق تحسينات كبيرة على أساسيات الطليعة الحالية. نقدم تحليلًا لخيارات تصميم نماذج المكافآت والسياسة، ونوضح فعالية كود في الاستفادة من ردود الفعل التنفيذية.