التاريخ

منذ 2 أعوام

الحجم

509.65 KB

المؤسسة

رابط الورقة البحثية

arxiv.org

الوسوم

ذكاء اصطناعي للعلوم

تم توفير هذه المجموعة من البيانات مفتوحة المصدر بواسطة مختبر الذكاء الاصطناعي في شنغهاي في عام 2024 جنبًا إلى جنب مع أول نموذج علمي كبير، وهو نموذج Pu Ke Chemical Big Model (ChemLLM). "نتائج الورقة ذات الصلة هي"ChemLLM: نموذج اللغة الكيميائية الكبيرة". تتضمن مجموعة البيانات بشكل أساسي ChemBench-4K، كما قام فريق البحث أيضًا بتوفير البيانات مفتوحة المصدر الإصدارات الصينية والإنجليزية من مجموعة بيانات ChemData700K وChemPref-10K وC-MHChem.

خلفية

معايير أداء المواد الكيميائية على نطاق واسع تم تصميم معظم معايير أداء المهام الكيميائية الحالية للنماذج المتخصصة لمهام محددة، مثل MoleculeNet. ومع ذلك، قد لا تكون مناسبة لاختبار LLM. تعتمد معظم معايير نموذج اللغة واسعة النطاق الموجودة في الكيمياء على تنسيق الإجابة على الأسئلة وتستخدم BLEU و ROUGE كمقاييس تقييم. ومع ذلك، فإن هذه الأنواع من التقييمات يمكن أن تتأثر بشكل كبير بأسلوب إخراج نموذج اللغة ولا تكون مناسبة للسيناريوهات التي يتم فيها التأكيد على صحة الحقائق العلمية. في هذه الحالة، إذا أظهرت الإجابات أنماطًا لغوية مماثلة، فقد تحصل على درجات تقييم أعلى على الرغم من احتوائها على أخطاء واقعية. لذلك، اختار فريق البحث إنشاء معيار كيميائي يتكون من أسئلة اختيار من متعدد، على غرار مجموعات التقييم السائدة الحالية MMLU 30 وC-Eval.

نظرة عامة على مجموعة البيانات

لتقييم فهم نماذج اللغة للكيمياء بشكل صارم، أطلق فريق البحث ChemBench، وهو معيار مبتكر يتكون من تسع مهام حول الجزيئات والتفاعلات الكيميائية، وهي نفس المهام الموجودة في ChemData، مع 4100 سؤال اختيار من متعدد مع إجابة واحدة صحيحة. يضع هذا المعيار الأساس لقياس كيمياء نماذج اللغة الكبيرة بشكل موضوعي. يظهر توزيع جميع المهام في ChemBench في الشكل.

مقدمة لمجموعات البيانات مفتوحة المصدر الأخرى

انقر هنا لاستخدام الإصدارات الصينية والإنجليزية من مجموعات البيانات ChemData700K وChemPref-10K وC-MHChem

مجموعة بيانات ChemBench-4K

ChemData700K عبارة عن مجموعة بيانات كبيرة لضبط تعليمات قدرات الكيمياء النموذجية اللغوية والتي تتضمن تسع مهام كيميائية أساسية و730 ألف سؤال وإجابة عالية الجودة، تم أخذ عينات منها من 1/10 من سبعة ملايين بيانات. تغطي مجموعة البيانات مجموعة واسعة من المعرفة في المجال الكيميائي وتتبع ثلاث فئات رئيسية للمهام (الجزيئات والتفاعلات والمجالات).

مجموعة بيانات ChemPref-10K

يمكن استخدام مجموعة البيانات هذه لتحسين نماذج اللغة لتتوافق مع التفضيلات البشرية، وتحتوي على إصدارات باللغتين الإنجليزية والصينية.

مجموعة بيانات C-MHChem

C-MHChem هو اختبار معياري عالي الجودة، مكتوب يدويًا بالكامل، متعدد الاختيارات، يتكون من 600 سؤال تم جمعها من امتحانات القبول في المدارس الإعدادية والثانوية والجامعية في أجزاء مختلفة من الصين على مدى السنوات الخمس والعشرين الماضية.

ChemBench4K.torrent

البذر 1جارٍ التنزيل 0مكتمل 200إجمالي التنزيلات 372

ChemBench4K/
- README.md
  3.08 KB
- README.txt
  6.17 KB

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه

ناقش على Discord

التاريخ

منذ 2 أعوام

الحجم

509.65 KB

المؤسسة

رابط الورقة البحثية

arxiv.org

الوسوم

ذكاء اصطناعي للعلوم

خلفية

نظرة عامة على مجموعة البيانات

مقدمة لمجموعات البيانات مفتوحة المصدر الأخرى

انقر هنا لاستخدام الإصدارات الصينية والإنجليزية من مجموعات البيانات ChemData700K وChemPref-10K وC-MHChem

مجموعة بيانات ChemBench-4K

مجموعة بيانات ChemPref-10K

مجموعة بيانات C-MHChem

ChemBench4K.torrent

البذر 1جارٍ التنزيل 0مكتمل 200إجمالي التنزيلات 372

ChemBench4K/
- README.md
  3.08 KB
- README.txt
  6.17 KB

مجموعات البيانات ذات الصلة

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

منذ 5 أشهر

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

منذ 5 أشهر

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

منذ 5 أشهر

مجموعة بيانات إنشاء فيديو RoVid-X Robot

منذ 2 أشهر

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

منذ 5 أشهر

مجموعة بيانات RealTimeFaceSwap-10k لتزييف مكالمات الفيديو

منذ 5 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات معيار تقييم القدرات الكيميائية ChemBench4K

خلفية

نظرة عامة على مجموعة البيانات

مقدمة لمجموعات البيانات مفتوحة المصدر الأخرى

مجموعة بيانات ChemBench-4K

مجموعة بيانات ChemPref-10K

مجموعة بيانات C-MHChem

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات معيار تقييم القدرات الكيميائية ChemBench4K

خلفية

نظرة عامة على مجموعة البيانات

مقدمة لمجموعات البيانات مفتوحة المصدر الأخرى

مجموعة بيانات ChemBench-4K

مجموعة بيانات ChemPref-10K

مجموعة بيانات C-MHChem

مجموعات البيانات ذات الصلة

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات RealTimeFaceSwap-10k لتزييف مكالمات الفيديو

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات معيار تقييم القدرات الكيميائية ChemBench4K

خلفية

نظرة عامة على مجموعة البيانات

مقدمة لمجموعات البيانات مفتوحة المصدر الأخرى

مجموعة بيانات ChemBench-4K

مجموعة بيانات ChemPref-10K

مجموعة بيانات C-MHChem

مجموعات البيانات ذات الصلة

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات RealTimeFaceSwap-10k لتزييف مكالمات الفيديو

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات RealTimeFaceSwap-10k لتزييف مكالمات الفيديو

مجموعات البيانات ذات الصلة

مجموعة بيانات تخطيط الدماغ الكهربائي THINGS-EEG

مجموعة بيانات تخطيط الدماغ المغناطيسي THINGS-MEG

مجموعة بيانات التصوير بالرنين المغناطيسي الوظيفي THINGS-fMRI

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات RealTimeFaceSwap-10k لتزييف مكالمات الفيديو