HyperAIHyperAI
منذ 13 أيام

كيف تؤثر التسمية على نماذج اللغة الكبيرة في مهام تحليل التعليمات البرمجية؟

Zhilong Wang, Lan Zhang, Chen Cao, Nanqing Luo, Xinzhi Luo, Peng Liu
كيف تؤثر التسمية على نماذج اللغة الكبيرة في مهام تحليل التعليمات البرمجية؟
الملخص

تم اقتراح النماذج اللغوية الكبيرة (LLMs)، مثل GPT وBERT، لمعالجة اللغة الطبيعية (NLP) وأظهرت نتائج واعدة كنماذج لغوية عامة الغرض. ويزداد عدد المهنيين والباحثين في القطاع الصناعي الذين يعتمدون على النماذج اللغوية الكبيرة في مهام تحليل البرمجة. ومع ذلك، يُعد الفرق الجوهري بين لغات البرمجة واللغات الطبيعية هو أن المبرمج يتمتع بالمرونة في تسمية المتغيرات والطرق والوظائف في البرنامج، بينما لا يتمتع الكاتب في اللغة الطبيعية بهذه المرونة. ومن المنطقي أن جودة التسمية في البرنامج تؤثر على أداء النماذج اللغوية الكبيرة في مهام تحليل البرمجة. تبحث هذه الورقة في كيفية تأثير التسمية على أداء النماذج اللغوية الكبيرة في مهام تحليل الكود. بشكل خاص، قمنا بإنشاء مجموعة من البيانات التي تحتوي على كود يحتوي على أسماء غير منطقية أو مضللة للمتغيرات والطرق والوظائف على حدة. ثم استخدمنا نماذج مُدرّبة جيدًا (مثل CodeBERT) لإنجاز مهام تحليل الكود على هذه المجموعات. أظهرت النتائج التجريبية أن التسمية تؤثر بشكل كبير على أداء مهام تحليل الكود المستندة إلى النماذج اللغوية الكبيرة، مما يدل على أن تعلم تمثيل الكود القائم على النماذج اللغوية الكبيرة يعتمد بشكل كبير على وجود أسماء واضحة ومحددة في الكود. بالإضافة إلى ذلك، أجرينا دراسة حالة على بعض مهام تحليل الكود الخاصة باستخدام GPT، مما فتح آفاقًا إضافية للفهم.

كيف تؤثر التسمية على نماذج اللغة الكبيرة في مهام تحليل التعليمات البرمجية؟ | أحدث الأوراق البحثية | HyperAI