قراءة StackOverflow تشجع على الغش: إضافة نص السؤال يُحسّن توليد الشفرة الاستخراجية

الإجابة على سؤال برمجي باستخدام عنوانه فقط أمر صعب، نظرًا لغياب المعلومات السياقية البارزة. استنادًا إلى هذه الملاحظة، نقدم مجموعة بيانات تضم أكثر من 40,000 نصًا لأسئلة من StackOverflow، والتي يمكن استخدامها مع النوايا المقابلة لها من مجموعة بيانات CoNaLa (Yin et al., 2018). وباستخدام كل من النية ونص السؤال معًا، نستخدم نموذج BART لإرساء نقطة مرجعية (baseline) لمؤشر BLEU بلغت 34.35 في هذه المهمة الجديدة. ونلاحظ تحسينًا إضافيًا بنسبة 2.8% من خلال دمج البيانات المستخرجة من CoNaLa مع البيانات المصنفة، مما يحقق مؤشر BLEU قدره 35.32. ونقوم بتقييم النماذج المتطورة السابقة في مجموعة CoNaLa باستخدام هذه البيانات الإضافية، ونجد أن الطريقة المقترحة التي تدمج بين نص السؤال والبيانات المستخرجة تتفوق على مؤشر BLEU للنماذج السابقة بنسبة 71.96%. وأخيرًا، نُجري تحليلات تحليلية (ablations) لتوضيح أن نموذج BART يُعدّ متعلمًا متعدد الوسائط غير مُعلَّم، ونُحلل سلوكه الاستخراجي. يمكن العثور على الكود والبيانات عبر الرابط التالي: https://github.com/gabeorlanski/stackoverflow-encourages-cheating.