HyperAIHyperAI
منذ 2 أشهر

كود تي 5: نماذج مُدربة مُسبقًا موحدة لفهم وإنشاء الكود مع الوعي بالمعرفات

Wang, Yue ; Wang, Weishi ; Joty, Shafiq ; Hoi, Steven C. H.
كود تي 5: نماذج مُدربة مُسبقًا موحدة لفهم وإنشاء الكود مع الوعي بالمعرفات
الملخص

النماذج المدربة مسبقًا للغات الطبيعية (NL) مثل BERT و GPT أظهرت مؤخرًا قدرتها على النقل بشكل جيد إلى لغات البرمجة (PL)، مما يفيد مجموعة واسعة من المهام المتعلقة بالكود. رغم نجاحها، تعتمد معظم الطرق الحالية إما على تدريب مسبق للمشفر فقط (أو للمفكك فقط) وهو ما يكون غير مثالي للمهام التوليدية (أو الفهم) أو تعالج شظايا الكود بنفس الطريقة التي تُعالج بها اللغات الطبيعية، مما يتجاهل الخصائص الخاصة للغات البرمجة مثل أنواع الرموز. نقدم CodeT5، وهو نموذج متقدم مدرب مسبقًا يجمع بين المشفر والمفكك ويستفيد بشكل أفضل من معاني الكود المنقولة من المعرفات التي يحددها المطورون. يستخدم نموذجنا إطار عمل موحد لدعم المهام المتعلقة بفهم الكود وتوليد الكود بطريقة سلسة، ويوفر التعلم متعدد المهام. بالإضافة إلى ذلك، نقترح مهمة تدريبية مسبقة جديدة تركز على المعرفات تمكن النموذج من تمييز أي رموز كود هي معرفات وإعادة استرجاعها عند حجبها. كما نقترح الاستفادة من التعليقات التي يكتبها المستخدمون في الكود باستخدام مهمة توليد ثنائية الوضعية لمزيد من التناسق بين اللغات الطبيعية ولغات البرمجة. أظهرت التجارب الشاملة أن CodeT5 يتفوق بشكل كبير على الطرق السابقة في مهام الفهم مثل اكتشاف عيوب الكود وكشف التقليد، وفي مهام التوليد عبر اتجاهات مختلفة بما في ذلك PL-NL و NL-PL و PL-PL. كشفت التحليلات الإضافية أن نموذجنا يمكنه التقاط المعلومات الدلالية من الكود بشكل أفضل. تم إطلاق شفرتنا المصدر والنماذج المدربة مسبقًا لدينا على الرابط: https://github.com/salesforce/CodeT5 .

كود تي 5: نماذج مُدربة مُسبقًا موحدة لفهم وإنشاء الكود مع الوعي بالمعرفات | أحدث الأوراق البحثية | HyperAI