HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 5 أشهر

توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة

الملخص

نتناول مشكلة توليد الكود من ردود الفعل التنفيذية المتعددة الأدوار. الطرق الحالية إما تولد الكود دون أي رد فعل أو تستعمل التعلم التعزيزي الهرمي المعقد لتحسين المكافآت المتعددة الأدوار. نقترح نهجًا بسيطًا ومعقول النمو، يُعرف بـ CODE (كود)، والذي يحل مشكلة توليد الكود المتعدد الأدوار باستخدام مكافآت خطوة واحدة فقط. الرؤية الأساسية لدينا هي أن توليد الكود هو عملية قابلة للتعافي في خطوة واحدة MDP (العملية الديناميكية المرتبطة بالقرار)، حيث يمكن استعادة الكود الصحيح من أي حالة كود وسيطة في دور واحد. يعمل كود على تدريب مولد بشكل متكرر لتوفير حلول كود مشروطة بردود الفعل التنفيذية المتعددة الأدوار، وتدرب مدقق لتقييم الكود الجديد المُولد. أظهرت التقييمات التجريبية أن نهجنا يحقق تحسينات كبيرة على أساسيات الطليعة الحالية. نقدم تحليلًا لخيارات تصميم نماذج المكافآت والسياسة، ونوضح فعالية كود في الاستفادة من ردود الفعل التنفيذية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة | الأوراق البحثية | HyperAI