مجموعة بيانات معيار تقييم القدرات الكيميائية ChemBench4K
التاريخ
الحجم
رابط النشر
* هذه المجموعة من البيانات تدعم الاستخدام عبر الإنترنت.انقر هنا للقفز.
تم توفير هذه المجموعة من البيانات مفتوحة المصدر بواسطة مختبر الذكاء الاصطناعي في شنغهاي في عام 2024 جنبًا إلى جنب مع أول نموذج علمي كبير، وهو نموذج Pu Ke Chemical Big Model (ChemLLM). "نتائج الورقة ذات الصلة هي"ChemLLM: نموذج اللغة الكيميائية الكبيرة".
تتضمن مجموعة البيانات بشكل أساسي ChemBench-4K، كما قام فريق البحث أيضًا بتوفير البيانات مفتوحة المصدر الإصدارات الصينية والإنجليزية من مجموعة بيانات ChemData700K وChemPref-10K وC-MHChem.
خلفية
معايير أداء المواد الكيميائية على نطاق واسع تم تصميم معظم معايير أداء المهام الكيميائية الحالية للنماذج المتخصصة لمهام محددة، مثل MoleculeNet. ومع ذلك، قد لا تكون مناسبة لاختبار LLM. تعتمد معظم معايير نموذج اللغة واسعة النطاق الموجودة في الكيمياء على تنسيق الإجابة على الأسئلة وتستخدم BLEU و ROUGE كمقاييس تقييم. ومع ذلك، فإن هذه الأنواع من التقييمات يمكن أن تتأثر بشكل كبير بأسلوب إخراج نموذج اللغة ولا تكون مناسبة للسيناريوهات التي يتم فيها التأكيد على صحة الحقائق العلمية. في هذه الحالة، إذا أظهرت الإجابات أنماطًا لغوية مماثلة، فقد تحصل على درجات تقييم أعلى على الرغم من احتوائها على أخطاء واقعية. لذلك، اختار فريق البحث إنشاء معيار كيميائي يتكون من أسئلة اختيار من متعدد، على غرار مجموعات التقييم السائدة الحالية MMLU 30 وC-Eval.
نظرة عامة على مجموعة البيانات
لتقييم فهم نماذج اللغة للكيمياء بشكل صارم، أطلق فريق البحث ChemBench، وهو معيار مبتكر يتكون من تسع مهام حول الجزيئات والتفاعلات الكيميائية، وهي نفس المهام الموجودة في ChemData، مع 4100 سؤال اختيار من متعدد مع إجابة واحدة صحيحة. يضع هذا المعيار الأساس لقياس كيمياء نماذج اللغة الكبيرة بشكل موضوعي.
يظهر توزيع جميع المهام في ChemBench في الشكل.
مقدمة لمجموعات البيانات مفتوحة المصدر الأخرى
مجموعة بيانات ChemBench-4K
ChemData700K عبارة عن مجموعة بيانات كبيرة لضبط تعليمات قدرات الكيمياء النموذجية اللغوية والتي تتضمن تسع مهام كيميائية أساسية و730 ألف سؤال وإجابة عالية الجودة، تم أخذ عينات منها من 1/10 من سبعة ملايين بيانات. تغطي مجموعة البيانات مجموعة واسعة من المعرفة في المجال الكيميائي وتتبع ثلاث فئات رئيسية للمهام (الجزيئات والتفاعلات والمجالات).
مجموعة بيانات ChemPref-10K
يمكن استخدام مجموعة البيانات هذه لتحسين نماذج اللغة لتتوافق مع التفضيلات البشرية، وتحتوي على إصدارات باللغتين الإنجليزية والصينية.
مجموعة بيانات C-MHChem
C-MHChem هو اختبار معياري عالي الجودة، مكتوب يدويًا بالكامل، متعدد الاختيارات، يتكون من 600 سؤال تم جمعها من امتحانات القبول في المدارس الإعدادية والثانوية والجامعية في أجزاء مختلفة من الصين على مدى السنوات الخمس والعشرين الماضية.