HyperAIHyperAI

Command Palette

Search for a command to run...

توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة

Arnav Kumar Jain Gonzalo Gonzalez-Pumariega Wayne Chen Alexander M Rush Wenting Zhao Sanjiban Choudhury

Abstract

نتناول مشكلة توليد الكود من ردود الفعل التنفيذية المتعددة الأدوار. الطرق الحالية إما تولد الكود دون أي رد فعل أو تستعمل التعلم التعزيزي الهرمي المعقد لتحسين المكافآت المتعددة الأدوار. نقترح نهجًا بسيطًا ومعقول النمو، يُعرف بـ CODE (كود)، والذي يحل مشكلة توليد الكود المتعدد الأدوار باستخدام مكافآت خطوة واحدة فقط. الرؤية الأساسية لدينا هي أن توليد الكود هو عملية قابلة للتعافي في خطوة واحدة MDP (العملية الديناميكية المرتبطة بالقرار)، حيث يمكن استعادة الكود الصحيح من أي حالة كود وسيطة في دور واحد. يعمل كود على تدريب مولد بشكل متكرر لتوفير حلول كود مشروطة بردود الفعل التنفيذية المتعددة الأدوار، وتدرب مدقق لتقييم الكود الجديد المُولد. أظهرت التقييمات التجريبية أن نهجنا يحقق تحسينات كبيرة على أساسيات الطليعة الحالية. نقدم تحليلًا لخيارات تصميم نماذج المكافآت والسياسة، ونوضح فعالية كود في الاستفادة من ردود الفعل التنفيذية.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp