تجميع نماذج الأساس لملخصة الرموز تلقائيًا

الملخص التلقائي للرموز البرمجية مفيد في تطوير البرمجيات اليومي، حيث يمكن أن يساعد على تقليل الحاجة إلى الكتابة اليدوية. حاليًا، تخضع الذكاء الصناعي لتحول جوهري. النماذج الأساسية التي تم تدريبها مسبقًا على كميات ضخمة من البيانات وضبطها للمهام اللاحقة تتفوق على النماذج المخصصة خصيصًا. هذا الاتجاه ألهمنا للتفكير في إعادة استخدام النماذج الأساسية بدلاً من التعلم من الصفر. لذلك، نقترح طريقة مرنة وقوية للملخص التلقائي للرموز البرمجية تعتمد على النماذج العصبية. نجمع بين النماذج الأساسية المتاحة، مثل CodeBERT و GPT-2، في نموذج عصبي واحد باسم AdaMo. بالإضافة إلى ذلك، نستخدم الضوضاء الغاوسية كمحاكاة للمعلومات السياقية لتحسين التمثيل الخفي (latent representation). علاوة على ذلك، نقدم خطتين متكيفتين من وجهة نظر نقل المعرفة، وهما التدريب المستمر المسبق والضبط الدقيق الوسيطي (intermediate finetuning)، ونصمم مهامًا وسيطة لتعلم التحويلات العامة من سلسلة إلى سلسلة (sequence-to-sequence learning). أخيرًا، نقيم AdaMo باستخدام مجموعة بيانات معيارية لموجز الرموز البرمجية، وذلك عبر مقارنتها مع أفضل النماذج الحالية.