HyperAI

مجموعة بيانات المهام الكيميائية ChemData

التاريخ

منذ 9 أشهر

الحجم

242.89 MB

المؤسسة

مختبر الذكاء الاصطناعي في شنغهاي

رابط النشر

huggingface.co

* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.

مقدمة مجموعة البيانات

تم توفير هذه المجموعة من البيانات مفتوحة المصدر بواسطة مختبر الذكاء الاصطناعي في شنغهاي في عام 2024 جنبًا إلى جنب مع أول نموذج علمي كبير، وهو نموذج Pu Ke Chemical Big Model (ChemLLM). "نتائج الورقة ذات الصلة هي"ChemLLM: نموذج اللغة الكيميائية الكبيرة".

تتضمن مجموعة البيانات بشكل أساسي ChemData700K. كما قام فريق البحث أيضًا بإتاحة الإصدارات الصينية والإنجليزية من ChemBench-4K وChemPref-10K ومجموعة بيانات C-MHChem مفتوحة المصدر.

مجموعة بيانات ChemData700K

ChemData700K عبارة عن مجموعة بيانات كبيرة لضبط تعليمات قدرات الكيمياء النموذجية اللغوية والتي تتضمن 9 مهام كيميائية أساسية و730 ألف سؤال وإجابة عالية الجودة، تم أخذ عينات منها من 1/10 من 7 ملايين بيانات. تغطي مجموعة البيانات مجموعة واسعة من المعرفة في المجال الكيميائي وتنقسم إلى 3 فئات رئيسية للمهام (الجزيئات والتفاعلات والمجالات).

مجموعة بيانات معيارية ChemBench4K

ChemBench هو معيار مبتكر يتكون من 9 مهام حول الجزيئات والتفاعلات الكيميائية. هذه المهام التسع هي نفسها تلك الموجودة في ChemData. يوفر هذا المعيار أساسًا لقياس كفاءة ماجستير قانون الكيمياء بشكل موضوعي. يحتوي ChemBench على 4100 سؤال اختيار من متعدد بإجابة صحيحة واحدة.

مجموعة بيانات ChemPref-10K

يمكن استخدام مجموعة البيانات هذه لتحسين نماذج اللغة لتتوافق مع التفضيلات البشرية، وتحتوي على إصدارات باللغتين الإنجليزية والصينية.

مجموعة بيانات C-MHChem

C-MHChem هو اختبار معياري عالي الجودة، مكتوب يدويًا بالكامل، متعدد الاختيارات، يتكون من 600 سؤال تم جمعها من امتحانات القبول في المدارس الإعدادية والثانوية والجامعية في أجزاء مختلفة من الصين على مدى السنوات الخمس والعشرين الماضية.

ChemLLM-Dataset.torrent
البذر 1التنزيل 1مكتمل 126إجمالي التنزيلات 465
  • ChemLLM-Dataset/
    • README.md
      2.09 KB
    • README.txt
      4.18 KB
      • data/
        • chem.zip
          242.89 MB