تحسين نماذج اللغات الكبيرة لإكمال شفرة OpenAPI

التطورات الحديثة في نماذج اللغات الكبيرة (LLMs) واستخدامها في مهام توليد الرموز قد غيرت بشكل كبير مجال تطوير البرمجيات. رغم الفعالية البارزة لحلول إكمال الرموز في اللغات البرمجية الشائعة، فإن أدائها يتأخر عند تطبيقه على تنسيقات أقل شيوعًا مثل تعريفات OpenAPI. يقيم هذا البحث أداء إكمال OpenAPI لـ GitHub Copilot، وهو أداة تجارية شائعة لإكمال الرموز، ويقترح مجموعة من التحسينات المحددة للمهمة باستخدام نموذج Code Llama المفتوح المصدر من Meta. يتم استخدام مقاييس إكمال OpenAPI الواعية بالمعنى المقترحة في هذا البحث لإجراء سلسلة من التجارب التي يتم خلالها تحليل تأثير تقنيات مختلفة للهندسة الدلالية وضبط النموذج الدقيق على أداء نموذج Code Llama. يصل النموذج المعدل Code Llama إلى زيادة صحة بنسبة 55.2% مقارنة بـ GitHub Copilot رغم استخدامه 25 مرة أقل من عدد المعلمات المستخدمة في نموذج Codex الأساسي للحل التجاري. بالإضافة إلى ذلك، يقترح هذا البحث تحسينًا لتقنية التدريب على الإدخال الجزئي للرموز التي تستعمل على نطاق واسع، معالجة مشكلة الأداء المنخفض عندما يتم تحفيز النموذج بحجم سياق أصغر مما تم استخدامه أثناء التدريب. تم جعل مجموعة البيانات والمقاييس ورمز ضبط النموذج الدقيق متاحًا للجمهور.