HyperAI

مجموعة بيانات معالجة لغة البرمجة pyMethods2Test

التاريخ

منذ 3 أشهر

الحجم

3.74 GB

المؤسسة

رابط النشر

zenodo.org

تم إنشاء مجموعة بيانات pyMethods2Test بواسطة باحثين في جامعة نبراسكا-لينكولن في عام 2025. وهي تحتوي على عدد كبير من طرق اختبار الوحدات مفتوحة المصدر وخرائط التركيز المقابلة. ويهدف إلى إنشاء حالات اختبار وحدوية فعالة لكود Python، وملء الفجوة في لغة Python في مجموعات بيانات الاختبار الكبيرة. نتائج الورقة ذات الصلة هيpyMethods2Test: مجموعة بيانات من اختبارات Python المرتبطة بالطرق المحورية"، والذي يستخدم على نطاق واسع لتدريب نماذج اللغة الكبيرة (LLMs) لتوليد حالات اختبار وحدة Python جيدة، مما يوفر لـ LLMs بيانات تدريب غنية حتى يتمكنوا من تعلم كيفية توليد اختبارات لكود Python.

تم إنشاء مجموعة البيانات من خلال استخراج 88,846 مشروع Python على GitHub يستخدم إطار عمل Pytest وunittest، وتم إنشاء مجموعة من 22,662,037 طريقة اختبار و2,198,378 خريطة تركيز.

تحتوي مجموعة البيانات على أكثر من 22 مليون تعيين لطرق الاختبار لطرق التركيز، وتوفر معلومات سياقية مفصلة لكل تعيين، مثل مسار ملف الاختبار، ومسار ملف التركيز، واسم الفصل، واسم الطريقة، ورقم السطر، وما إلى ذلك. يتم تخزينها بتنسيق JSON لسهولة المعالجة؛ ويتم أيضًا توفير نص برمجي لإنشاء سياق طريقة التركيز.

يتم تخزين البيانات في ملفين ZIP. إذا كنت تريد استخدام بيانات التركيز التي تم استخراجها مسبقًا فقط، فقم بفك ضغطها focal-data.zip الملف (حوالي 2 جيجابايت بعد فك الضغط). أكبر raw-data.zip يحتوي الملف (حوالي 42 جيجابايت بعد فك الضغط) على البيانات الخام المستخدمة لإنشاء بيانات التركيز، مثل الفئات والطرق المستخرجة من المستودع.

pyMethods2Test.torrent
البذر 1التنزيل 2مكتمل 34إجمالي التنزيلات 55
  • pyMethods2Test/
    • README.md
      2.14 KB
    • README.txt
      4.29 KB
      • data/
        • pyMethods2Test.zip
          3.74 GB