إدماج المعرفة الخارجية من خلال التدريب المسبق لتحويل اللغة الطبيعية إلى كود

يهدف التوليد المفتوح النطاق للبرمجة إلى إنشاء كود بلغة برمجة عامة (مثل بايثون) من نوايا بلغة طبيعية (NL). مستلهمين من الفكرة القائلة بأن المطورين عادةً ما يستقون مصادر مساعدة من الإنترنت عند كتابة الكود، نستكشف فعالية دمج نوعين من المعرفة الخارجية في عملية التوليد من اللغة الطبيعية إلى الكود: أزواج اللغة الطبيعية والكود التي تم استخراجها تلقائيًا من منتدى الأسئلة والأجوبة البرمجية الشهير ستاك أوفرفلاو، بالإضافة إلى وثائق واجهات برمجة التطبيقات (API) الخاصة بلغات البرمجة. تُظهر تقييماتنا أن دمج هذين المصادر مع تقنيات تعزيز البيانات وإعادة عينة البيانات القائمة على الاسترجاع يؤدي إلى تحسين الحالة الراهنة للتقنية بنسبة تصل إلى 2.2% من حيث درجة BLEU المطلقة على مختبر اختبار التوليد الكودي CoNaLa. ويتوفر الكود والموارد المستخدمة على الرابط: https://github.com/neulab/external-knowledge-codegen.