مجموعة بيانات المهام الكيميائية ChemData
التاريخ
الحجم
رابط النشر
* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.
مقدمة مجموعة البيانات
تم توفير هذه المجموعة من البيانات مفتوحة المصدر بواسطة مختبر الذكاء الاصطناعي في شنغهاي في عام 2024 جنبًا إلى جنب مع أول نموذج علمي كبير، وهو نموذج Pu Ke Chemical Big Model (ChemLLM). "نتائج الورقة ذات الصلة هي"ChemLLM: نموذج اللغة الكيميائية الكبيرة".
تتضمن مجموعة البيانات بشكل أساسي ChemData700K. كما قام فريق البحث أيضًا بإتاحة الإصدارات الصينية والإنجليزية من ChemBench-4K وChemPref-10K ومجموعة بيانات C-MHChem مفتوحة المصدر.
مجموعة بيانات ChemData700K
ChemData700K عبارة عن مجموعة بيانات كبيرة لضبط تعليمات قدرات الكيمياء النموذجية اللغوية والتي تتضمن 9 مهام كيميائية أساسية و730 ألف سؤال وإجابة عالية الجودة، تم أخذ عينات منها من 1/10 من 7 ملايين بيانات. تغطي مجموعة البيانات مجموعة واسعة من المعرفة في المجال الكيميائي وتنقسم إلى 3 فئات رئيسية للمهام (الجزيئات والتفاعلات والمجالات).
مجموعة بيانات معيارية ChemBench4K
ChemBench هو معيار مبتكر يتكون من 9 مهام حول الجزيئات والتفاعلات الكيميائية. هذه المهام التسع هي نفسها تلك الموجودة في ChemData. يوفر هذا المعيار أساسًا لقياس كفاءة ماجستير قانون الكيمياء بشكل موضوعي. يحتوي ChemBench على 4100 سؤال اختيار من متعدد بإجابة صحيحة واحدة.
مجموعة بيانات ChemPref-10K
يمكن استخدام مجموعة البيانات هذه لتحسين نماذج اللغة لتتوافق مع التفضيلات البشرية، وتحتوي على إصدارات باللغتين الإنجليزية والصينية.
مجموعة بيانات C-MHChem
C-MHChem هو اختبار معياري عالي الجودة، مكتوب يدويًا بالكامل، متعدد الاختيارات، يتكون من 600 سؤال تم جمعها من امتحانات القبول في المدارس الإعدادية والثانوية والجامعية في أجزاء مختلفة من الصين على مدى السنوات الخمس والعشرين الماضية.