HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

إعادة الترميز: تحديث معرفة واجهة برمجة التطبيقات باستخدام التعلم التعزيزي

Haoze Wu Yunzhi Yao Wenhao Yu Huajun Chen Ningyu Zhang

إعادة الترميز: تحديث معرفة واجهة برمجة التطبيقات باستخدام التعلم التعزيزي

الملخص

تظهر نماذج اللغات الكبيرة (LLMs) قدرات ملحوظة في توليد الشفرات البرمجية، ولكنها تفشل عند التكيف مع التحديثات المتكررة في واجهات برمجة التطبيقات الخارجية (APIs). ينبع هذا القيد الحاسم من الاعتماد على معرفة واجهة برمجة التطبيقات القديمة من بيانات التدريب الخاصة بها، حتى مع الوصول إلى الوثائق الحالية، مما يعيق توليد الشفرات البرمجية بشكل موثوق في البيئات الديناميكية. لمعالجة هذه المشكلة، نقترح نظام ReCode (التعلم التعزيزي القائم على القواعد لتحديث الشفرة)، وهو إطار جديد يحاكي كيفية تكيف المبرمجين البشريين مع تغييرات واجهة برمجة التطبيقات. تحديداً، نقوم بإنشاء مجموعة بيانات تتكون من حوالي 2,000条数据条目来训练大型语言模型根据更新的信息执行版本迁移。 ثم,我们引入了一种修改后的字符串相似度度量作为强化学习的奖励,用于代码评估。我们的实验表明,ReCode在动态API场景中显著提高了大型语言模型的代码生成性能,特别是在未见过的CodeUpdateArena任务上。重要的是,与监督微调相比,ReCode对大型语言模型的一般代码生成能力影响较小。我们在各种大型语言模型和强化学习算法(GRPO و DAPO)上应用了ReCode,所有这些都实现了持续的改进。值得注意的是,在训练之后,Qwen2.5-Coder-7B的表现超过了32B参数代码指令调优模型和具有相同架构的推理模型。代码可在https://github.com/zjunlp/ReCode获取。为了使翻译更加符合阿拉伯语的习惯,以下是优化后的版本:تظهر نماذج اللغات الكبيرة (LLMs) قدرات ملحوظة في توليد الشفرات البرمجية، لكنها تعاني من الفشل عند التكيف مع التحديثات المتكررة في واجهات برمجة التطبيقات الخارجية (APIs). يعود هذا القيد الحاسم إلى اعتمادها على معرفة واجهة برمجة التطبيقات القديمة من بيانات التدريب الخاصة بها، حتى مع توافر الوثائق الحالية، مما يعرقل إنتاج الشفرات البرمجية بشكل موثوق في البيئات الديناميكية. لمعالجة هذه المشكلة، نقترح نظام ReCode (التعلم التعزيزي القائم على القواعد لتحديث الشفرة)، وهو إطار جديد يحاكي طريقة تكيف المبرمجين البشريين مع تغييرات واجهة برمجة التطبيقات. تحديداً، قمنا بإنشاء مجموعة بيانات تتكون من حوالي 2,000 دخول للبيانات لتدريب النماذج الكبيرة لللغة على أداء الهجرة الإصدارية بناءً على المعلومات المحدثة. بعد ذلك، قدمنا مؤشراً مشابهاً للمؤشر النصي المعدل لتقييم الشفرة كمكافأة للتعلم التعزيزي. أظهرت تجاربنا أن ReCode يعزز بشكل كبير أداء توليد الشفرة في سيناريوهات API الديناميكية، خاصة في مهمة CodeUpdateArena غير المعروفة سابقاً. ومن الجدير بالذكر أن ReCode له تأثير أقل على قدرات النماذج الكبيرة للغة في إنتاج الشفرة بشكل عام مقارنة بالضبط المشرف عليه. طبقنا ReCode على العديد من النماذج الكبيرة للغة والخوارزميات المختلفة للتعلم التعزيزي (GRPO و DAPO)، وقد حققت جميعها تحسينات مستمرة. وبشكل خاص، بعد التدريب، أثبت Qwen2.5-Coder-7B أنه أفضل من نموذج التعليم بالتعليم المباشر ذو الـ32 مليار معلمة ومن نموذج الاستدلال ذو نفس البنية. يمكن الحصول على الرمز المصدر من https://github.com/zjunlp/ReCode.

مستودعات الكود

zjunlp/recode
رسمي
pytorch
مذكور في GitHub

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إعادة الترميز: تحديث معرفة واجهة برمجة التطبيقات باستخدام التعلم التعزيزي | الأوراق البحثية | HyperAI