منذ 13 أيام

إنشاء الكود من اللغة الطبيعية باستخدام أقل بيانات سابقة وأكثر بيانات ثنائية اللغة

Sajad Norouzi, Keyi Tang, Yanshuai Cao

الملخص

تُعدّ مجموعات البيانات التدريبية لتحليل الدلالة صغيرة عادةً بسبب الحاجة إلى خبرة متخصصة أعلى في التصنيف مقارنةً بمعظم مهام معالجة اللغة الطبيعية الأخرى. ونتيجة لذلك، تحتاج النماذج المستخدمة في هذا التطبيق عادةً إلى معرفة سابقة إضافية تُدمج في البنية أو الخوارزمية. ويزيد الاعتماد المتزايد على الخبراء البشريين من صعوبة الأتمتة، كما يرفع من تكاليف التطوير والصيانة في الممارسة العملية. تبحث هذه الدراسة ما إذا كان من الممكن تحقيق أداء تنافسي باستخدام نموذج ترانسفورمر عام مبني على تسلسل إلى تسلسل (seq2seq) مع تصميم حدّي استقرائي (inductive bias) محدود جدًا مخصصًا لكتابة الأكواد. وباستغلال مجموعة لغوية أحادية اللغة كبيرة نسبيًا بلغة البرمجة المستهدفة، والتي يمكن استخلاصها بسهولة وتكلفة منخفضة من الويب، تم تحقيق دقة مطابقة دقيقة (exact match) بنسبة 81.03٪ على إطار Django، ودرجة BLEU بلغت 32.57 على مجموعة CoNaLa. وهما أفضل أداء حاليًا (SOTA) وفقًا للمعرفة الحالية. وتشير هذه الأدلة الإيجابية إلى طريق محتمل أكثر سهولة لتحقيق نماذج تحليل دلالي دقيقّة في الممارسة العملية.