الملخص

نتناول مشكلة توليد الكود من ردود الفعل التنفيذية المتعددة الأدوار. الطرق الحالية إما تولد الكود دون أي رد فعل أو تستعمل التعلم التعزيزي الهرمي المعقد لتحسين المكافآت المتعددة الأدوار. نقترح نهجًا بسيطًا ومعقول النمو، يُعرف بـ CODE (كود)، والذي يحل مشكلة توليد الكود المتعدد الأدوار باستخدام مكافآت خطوة واحدة فقط. الرؤية الأساسية لدينا هي أن توليد الكود هو عملية قابلة للتعافي في خطوة واحدة MDP (العملية الديناميكية المرتبطة بالقرار)، حيث يمكن استعادة الكود الصحيح من أي حالة كود وسيطة في دور واحد. يعمل كود على تدريب مولد بشكل متكرر لتوفير حلول كود مشروطة بردود الفعل التنفيذية المتعددة الأدوار، وتدرب مدقق لتقييم الكود الجديد المُولد. أظهرت التقييمات التجريبية أن نهجنا يحقق تحسينات كبيرة على أساسيات الطليعة الحالية. نقدم تحليلًا لخيارات تصميم نماذج المكافآت والسياسة، ونوضح فعالية كود في الاستفادة من ردود الفعل التنفيذية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters