منذ 13 أيام

تعليم النماذج اللغوية الكبيرة على التصحيح الذاتي

Xinyun Chen, Maxwell Lin, Nathanael Schärli, Denny Zhou

الملخص

لقد حققت النماذج اللغوية الكبيرة (LLMs) أداءً ملحوظًا في إنشاء الشفرة البرمجية. ومع ذلك، فإن إنتاج حل صحيح في محاولة واحدة يصبح أمرًا صعبًا في المهام البرمجية المعقدة، مما دفع بعض الأبحاث السابقة إلى تصميم مناهج لإصلاح البرامج لتحسين أداء إنشاء الشفرة. في هذا العمل، نقترح نموذج "التصحيح الذاتي" (Self-Debugging)، الذي يُدرّب النموذج اللغوي الكبير على إجراء عملية تصحيح للشفرة التي يُنتجها باستخدام أمثلة قليلة (few-shot demonstrations). وبشكل خاص، نُظهر أن "التصحيح الذاتي" يمكنه تعليم النموذج اللغوي الكبير كيفية إجراء "التصحيح بالدودة المطاطية" (rubber duck debugging)؛ أي أنه دون الحاجة إلى أي ملاحظات بشرية حول صحة الشفرة أو رسائل الأخطاء، يستطيع النموذج اكتشاف أخطائه من خلال تحليل نتائج التنفيذ وشرح الشفرة المُنتجة بلغة طبيعية. يحقق "التصحيح الذاتي" أداءً متقدمًا على مستوى الدولة في عدة معايير لإنشاء الشفرة، بما في ذلك مجموعة بيانات Spider لتحويل النص إلى SQL، وTransCoder لترجمة C++ إلى Python، وMBPP لإنشاء شفرة Python من نص. على معيار Spider حيث لا توجد اختبارات وحدة (unit tests) للتحقق من صحة التنبؤات، يُحسّن "التصحيح الذاتي" مع شرح الشفرة الأداء الأساسي بشكل متسق بنسبة 2-3٪، ويزيد من دقة التنبؤ في المسائل الأصعب بنسبة 9٪. أما على TransCoder وMBPP حيث تتوفر اختبارات وحدة، فيُحسّن "التصحيح الذاتي" دقة النموذج الأساسي بنسبة تصل إلى 12٪. وفي الوقت نفسه، وباستخدام رسائل التغذية الراجعة وإعادة استخدام التنبؤات الفاشلة، يُحسّن "التصحيح الذاتي" بشكل ملحوظ كفاءة العينة، ويمكنه تحقيق أداء مماثل أو تفوق النماذج الأساسية التي تُنتج أكثر من 10 أضعاف عدد البرامج المرشحة.