HyperAIHyperAI

Command Palette

Search for a command to run...

CoDesc: مجموعة بيانات كبيرة متوازية من الكود والوصف

Masum Hasan Tanveer Muttaqueen Abdullah Al Ishtiaq Kazi Sajeed Mehrab Md. Mahim Anjum Haque Tahmid Hasan Wasi Uddin Ahmad Anindya Iqbal Rifat Shahriyar

الملخص

يمكن أن يسهم الترجمة بين اللغة الطبيعية والكود المصدري في تطوير البرمجيات من خلال تمكين المطورين من فهم وتخمين وبحث وكتابة البرامج الحاسوبية باستخدام اللغة الطبيعية. وعلى الرغم من الاهتمام المتزايد من قبل الصناعة والمجتمع البحثي، فإن هذه المهمة تظل صعبة في كثير من الأحيان بسبب نقص المجموعات الكبيرة القياسية المناسبة لتدريب النماذج العصبية العميقة، وطرق قياسية لإزالة الضوضاء، ومقاييس تقييم معيارية. هذا يترك الباحثين مطالبين بجمع مجموعات بيانات صغيرة جديدة، مما يؤدي إلى عدم اتساق بين الدراسات المنشورة. في هذه الدراسة، نقدم CoDesc — وهي مجموعة بيانات متوازية كبيرة تتكون من 4.2 مليون طريقة بلغة جافا ووصف طبيعي لها. وباستخدام تحليل واسع، نحدد ونُزيل الأنماط الشائعة للضوضاء من المجموعة. نُظهر كفاءة CoDesc في مهامتين متكاملتين لزوج الكود-الوصف: تلخيص الكود وبحث الكود. ونُثبت أن المجموعة تُحسّن أداء بحث الكود بنسبة تصل إلى 22٪، وتحقق أقصى مستوى حالي في تلخيص الكود. علاوةً على ذلك، نُظهر فعالية CoDesc في إعدادات التدريب المسبق-الضبط الدقيق، مما يفتح آفاقًا لبناء نماذج لغوية مُدرّبة مسبقًا للغة جافا. ولتسهيل الأبحاث المستقبلية، نُطلق المجموعة، وأداة معالجة البيانات، والمعيار التقييمي عبر الرابط: \url{https://github.com/csebuetnlp/CoDesc}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp