HyperAI

مجموعة بيانات الإجابة على أسئلة البرمجة المجتمعية ProCQA

التاريخ

منذ عام واحد

الحجم

2.34 GB

المؤسسة

جامعة بكين للملاحة الجوية والفضائية

رابط النشر

github.com

العلامات

ProCQA هي مجموعة بيانات واسعة النطاق للإجابة على أسئلة البرمجة أنشأتها جامعة Beihang، وتحتوي على حوالي 5 ملايين زوج من الأسئلة والأجوبة.يغطي 11 لغة برمجة مختلفة بما في ذلك Python وJava وJavaScript وغيرها.تتضمن هذه الأسئلة والأجوبة مجالات معرفية متعددة مثل استخدام الخوارزميات والأطر والمكتبات. البيانات تأتي من مجتمع StackOverflow. ويحصل الباحثون عليها من خلال تقنية الزاحف ويتبنون استراتيجية صارمة لتصفية القواعد، بما في ذلك تصفية الأسئلة والأجوبة القصيرة جدًا أو الطويلة جدًا والاحتفاظ فقط بالإجابات التي يقبلها السائل، لضمان جودة البيانات ونزاهتها. إن أزواج الأسئلة والأجوبة في ProCQA عبارة عن وسائط مختلطة منظمة بشكل طبيعي، أي أن النص والرمز متشابكان في حقل الأسئلة والأجوبة، مما يوفر إشارة إشراف طبيعية للنموذج ويساعد في محاذاة الوسائطين. يمكن استخدام مجموعة البيانات هذه على نطاق واسع كمعيار تقييم ومجموعة بيانات ما قبل التدريب، مما يوفر موردًا مهمًا لاسترجاع التعليمات البرمجية ومهام الإجابة على الأسئلة.

ProCQA.torrent
البذر 1التنزيل 1مكتمل 130إجمالي التنزيلات 226
  • ProCQA/
    • README.md
      1.56 KB
    • README.txt
      3.13 KB
      • data/
        • procqa.zip
          2.34 GB