HyperAIHyperAI
منذ 17 أيام

عدة أنواع لـ TypeScript: مجموعة بيانات شاملة لـ TypeScript للاستدلال على النوع القائم على التسلسل

{Premkumar T. Devanbu, Kevin Jesse}
الملخص

في هذه الورقة، نقدّم ManyTypes4TypeScript، وهي مجموعة بيانات ضخمة جدًا تُستخدم لتدريب نماذج التعلم الآلي وتقييمها في مجال استنتاج الأنواع القائمة على التسلسل في لغة TypeScript. تضم المجموعة أكثر من 9 ملايين تسمية نوع، موزعة عبر 13,953 مشروعًا و539,571 ملفًا. وتُعد هذه المجموعة حجمها تقريبًا 10 أضعاف حجم المجموعات المشابهة المستخدمة في لغة Python لاستنتاج الأنواع، وهي الأكبر حتى الآن المتاحة لـ TypeScript. كما نقدّم واجهة برمجة تطبيقات (API) للوصول إلى هذه المجموعة، والتي يمكن دمجها في أي مُفكك (tokenizer) واستخدامها مع أي نموذج حديث قائم على التسلسل. وأخيرًا، نقدّم تحليلًا ونتائج أداء لنماذج حديثة مخصصة للغة البرمجة، بهدف إقامة معايير مرجعية (baselining). تُتاح ManyTypes4TypeScript عبر منصات Huggingface وZenodo وCodeXGLUE.