HyperAIHyperAI
منذ 12 أيام

CoDesc: مجموعة بيانات كبيرة متوازية من الكود والوصف

Masum Hasan, Tanveer Muttaqueen, Abdullah Al Ishtiaq, Kazi Sajeed Mehrab, Md. Mahim Anjum Haque, Tahmid Hasan, Wasi Uddin Ahmad, Anindya Iqbal, Rifat Shahriyar
CoDesc: مجموعة بيانات كبيرة متوازية من الكود والوصف
الملخص

يمكن أن يسهم الترجمة بين اللغة الطبيعية والكود المصدري في تطوير البرمجيات من خلال تمكين المطورين من فهم وتخمين وبحث وكتابة البرامج الحاسوبية باستخدام اللغة الطبيعية. وعلى الرغم من الاهتمام المتزايد من قبل الصناعة والمجتمع البحثي، فإن هذه المهمة تظل صعبة في كثير من الأحيان بسبب نقص المجموعات الكبيرة القياسية المناسبة لتدريب النماذج العصبية العميقة، وطرق قياسية لإزالة الضوضاء، ومقاييس تقييم معيارية. هذا يترك الباحثين مطالبين بجمع مجموعات بيانات صغيرة جديدة، مما يؤدي إلى عدم اتساق بين الدراسات المنشورة. في هذه الدراسة، نقدم CoDesc — وهي مجموعة بيانات متوازية كبيرة تتكون من 4.2 مليون طريقة بلغة جافا ووصف طبيعي لها. وباستخدام تحليل واسع، نحدد ونُزيل الأنماط الشائعة للضوضاء من المجموعة. نُظهر كفاءة CoDesc في مهامتين متكاملتين لزوج الكود-الوصف: تلخيص الكود وبحث الكود. ونُثبت أن المجموعة تُحسّن أداء بحث الكود بنسبة تصل إلى 22٪، وتحقق أقصى مستوى حالي في تلخيص الكود. علاوةً على ذلك، نُظهر فعالية CoDesc في إعدادات التدريب المسبق-الضبط الدقيق، مما يفتح آفاقًا لبناء نماذج لغوية مُدرّبة مسبقًا للغة جافا. ولتسهيل الأبحاث المستقبلية، نُطلق المجموعة، وأداة معالجة البيانات، والمعيار التقييمي عبر الرابط: \url{https://github.com/csebuetnlp/CoDesc}.

CoDesc: مجموعة بيانات كبيرة متوازية من الكود والوصف | أحدث الأوراق البحثية | HyperAI