آبل وهONG كونج تطوران DiffuCoder: نموذج تدفق م specialization بحجم 7 مليارات معلمة ل动生成 الشفرات البرمجية
Apple و الجامعة الصينية في هونغ كونغ تقدمان DiffuCoder: نموذج تدفق مasked مخصص لتوليد الشفرات البرمجية التحول الجذري في توليد الشفرات البرمجية باستخدام نماذج LLM المبنية على التدفق قد أحدثت نماذج اللغات العملاقة (LLMs) ثورة في معالجة اللغات الطبيعية، حيث حققت نتائج ملموسة في مجموعة متنوعة من المهام، بدءًا من الحوار وتوصيف الأسئلة وحتى توليد الشفرات البرمجية. ومع ظهور نماذج التدفق المخفية (masked diffusion models)، تم تطوير نماذج LLM المبنية على التدفق مثل LLaDA و Dream. هذه النماذج تقوم بتصحيح التسلسل بأكمله بشكل متوازي، مما يسمح بخطة شاملة للمحتوى. يعتبر نهج نماذج التدفق ملائمًا لتوليد الشفرات البرمجية لأنه غالبًا ما يتطلب التحسين المستمر والغير تتابعي. ومع ذلك، لم تكن هناك دراسات واضحة حول أداء نماذج التدفق المفتوحة المصدر في مهام البرمجة، وذلك لأن جهود التعديل بعد التدريب تظهر ارتفاعًا طفيفًا في الأداء أو تعتمد على التشفير شبه التتابعي، وهو ما يحيد عن طبيعة الخطة الشاملة للتدفق. تطور نماذج التدفق النصية وأثرها على التركيب الكودي من بين النماذج الأولى للتدفق النصي كانت نماذج التدفق المخفية، التي تم توسيع نطاقها مؤخرًا لإنتاج نماذج LLM المبنية على التدفق مثل DiffuLLaMA، LLaDA، و Dream. يقترح نموذج التدفق الكتلي (block diffusion) نهجًا هجينًا يطبق التدفق داخل كل كتلة. أما النماذج متعددة الوسائط مثل LaViDa، MMaDA، و Dimple فتجمع بين نماذج التدفق النصية ونماذج الرؤية. في مجال توليد الشفرات البرمجية، كان CodeFusion أول نموذج يدمج بين نماذج التدفق وتوليد الشفرات البرمجية، ولكنه محدود بالنموذج الصغير والمهمات البسيطة. تظهر النماذج التجارية الحديثة مثل Mercury و Gemini أداءً مشابهًا لأفضل النماذج التتابعة لتوليد الشفرات البرمجية. ومع ذلك، تعتمد طرق تعديل التعلم المعزز (RL) الحالية لنماذج dLLM، مثل d1 و MMaDA باستخدام GRPO، على التشفير الكتلي أثناء التكرار والتقدير. تقديم DiffuCoder: نموذج تدفق مخصص للشفرات البرمجية قدم باحثون من Apple وجامعة هونغ كونغ (HKU) نموذج DiffuCoder، وهو نموذج تدفق مخفية مخصص لتوليد الشفرات البرمجية بحجم 7 مليارات معلمة، تم تدريبه على 130 مليار رمز فعال. يعتبر هذا النموذج حقلًا قيمة لاستكشاف سلوكيات نماذج LLM المبنية على التدفق وتطوير طرق التعديل بعد التدريب. قام الباحثون بتعريف مقاييس التتابع المحلي والعالمي لقياس مدى اتباع التوليد للنمط من اليسار إلى اليمين. أظهرت التحليلات أن نماذج التدفق LLM تظهر تأثير ماصة الإنتروبيا (entropy sink effect)، مما يؤدي إلى تحيز قوي أثناء التوليد المشروط. يصبح DiffuCoder أكثر مرونة في ترتيب إنتاج الرموز عندما يزيد درجة العينة من 0.2 إلى 1.2، مما يؤدي إلى تحرره من قيود التتابع الصارم وتحقيق دقة أعلى في المقاسة pass@10. خطوات التدريب الأربع لتعزيز أداء DiffuCoder قام الباحثون بتكييف نموذجهم من Qwen-2.5-Coder كنموذج أساسي، وأجروا تدريبًا مستمرًا باستخدام مكتبة بيانات تدريبية تحتوي على 400 مليار رمز من RefineCode و Stackv2. يتكون التدريب من أربع مراحل: 1. التدريب التكيفي: تم تطبيق وقف مبكر (early stopping) بعد معالجة 65 مليار رمز. 2. التدريب الوسطي: تم التدريب لمدة 4 عصور (epochs) باستخدام 16 مليار رمز من بيانات التدريب التدريجي (annealing code data). 3. تعديل التعليمات: تم استخدام 436 ألف عينة تدريبية لتعديل التعليمات (SFT samples). 4. التعديل بعد التدريب: تم استخدام Coupled-GRPO مع 21 ألف عينة صعبة من Acecoder-87K. تم بناء بيئات التقييم باستخدام ثلاث معايير للبرمجة هي HumanEval، MBPP، و EvalPlus، بالإضافة إلى BigCodeBench. تشمل هذه البيئات كلاً من الأقسام الكاملة والأقسام الصعبة، مما يغطي أنواع الاستكمال والتوصيفات القائمة على التعليمات. نتائج المعايير: أداء DiffuCoder ورؤى التحسين حقق DiffuCoder، الذي تم تدريبه على 130 مليار رمز، أداءً يتنافس مع Qwen2.5-Coder و OpenCoder. ومع ذلك، لم تظهر جميع نماذج dLLM تحسنًا كبيرًا عن نماذجها الأساسية بعد تعديل التعليمات مقارنة بـ Qwen2.5-Coder+SFT، الذي حقق تحسنًا ملحوظًا من تعديل التعليمات على نفس البيانات. أظهرت طريقة التعلم المعزز Coupled-GRPO فعالية قوية، بينما تميل النسخ الأساسية مثل d1، الاستكمال باستخدام القناع الكامل، والعينة المنفصلة إلى إظهار سلوك غير مستقر في تعلم المكافآت. يزيد تعديل التعلم المعزز (RL) من درجة العينة المثلى عند التقييم من 0.2 إلى قيم أعلى، مما يشير إلى أن التدريب يحدف توزيع كل رمز. هذا يقلل من اعتماد النموذج على التشفير التتابعي الصارم ويعزز قدرته على إنتاج الرموز بشكل متوازي. Coupled-GRPO والمستقبل لنماذج التدفق في توليد الشفرات البرمجية في هذا البحث، يقدم الباحثون نموذج DiffuCoder، وهو نموذج تدفق مفتوح المصدر بحجم 7 مليارات معلمة يتميز بالأداء القوي، مع وصف كامل لخطوات التدريب وتحليل مفصل لنماذج dLLM لتوليد الشفرات البرمجية. كما قدموا Coupled-GRPO، وهو خوارزمية تعلم معزز تحترم طبيعة التدفق غير التتابعي من خلال تقنية العينة المتصلة (coupled-sampling) للتقدير الدقيق للمثلية. أثبت Coupled-GRPO فعاليته في تحسين أداء DiffuCoder، مما يظهر قوة الطرق التي تتوافق مع مبادئ التدفق. يعمل هذا البحث على توفير رؤية أعمق للمجتمع العلمي حول نماذج dLLM ويشكل أساسًا صلبًا للبحث المستقبلي حول تطبيقاتها في المهام المعقدة والاستدلال. تقييم الحدث من قبل المختصين يُعتبر DiffuCoder خطوة مهمة في تطوير نماذج التدفق المخصصة لتوليد الشفرات البرمجية. يوفر النموذج والطرق المرتبطة به فهمًا أفضل لكيفية عمل نماذج التدفق في مجال البرمجة، مما يمكن الباحثين والمطورين من استكشاف طرق جديدة لتحسين هذه النماذج. تُعد شركة Apple واحدة من الشركات الرائدة في مجال الذكاء الاصطناعي، وتعاونها مع جامعة هونغ كونغ يعزز من جودة الأبحاث ويفتح آفاقًا جديدة للتطبيقات العملية في مجال توليد الشفرات البرمجية.