التاريخ

منذ عام واحد

المؤسسة

عنوان URL للنشر

رابط الورقة البحثية

الوسوم

معالجة اللغة الطبيعية

LLM4Mat-Bench عبارة عن مجموعة بيانات لتقييم نموذج اللغة متعدد الوسائط للتنبؤ بخصائص المواد تم إنشاؤها بشكل مشترك من قبل جامعة برينستون وجامعة تورنتو ومؤسسات أخرى. "نتائج الورقة ذات الصلة هي"LLM4Mat-Bench: معايرة نماذج اللغات الكبيرة للتنبؤ بخصائص المواديهدف هذا البحث إلى تقييم أداء نماذج اللغات الكبيرة (LLMs) في التنبؤ بخصائص المواد واكتشافها. تحتوي مجموعة البيانات على ما يقارب 1.97 مليون عينة من بنية البلورات من 10 قواعد بيانات عامة للمواد، تغطي 45 خاصية فيزيائية وكيميائية مختلفة للمواد. ويُعد هذا أكبر معيار حتى الآن لتقييم أداء نماذج اللغات الكبيرة (LLMs) في التنبؤ بخصائص المواد.

يتميز كل سجل في مجموعة البيانات بوسائل إدخال متعددة، بما في ذلك التركيب الكيميائي للبلورة، وملف البنية البلورية القياسي (CIF)، والوصف باللغة الطبيعية للبنية البلورية التي تم إنشاؤها بواسطة أداة Robocrystallographer. تشكل هذه الوسائل مجتمعة تمثيلًا شاملاً للمادة، والتي تُستخدم لدعم مدخلات التعلم في ماجستير القانون في مجموعة متنوعة من سيناريوهات المهام.

إجمالي كمية البيانات:

وضع تكوين البلورة (التكوين): حوالي 4.7 مليون رمز
وضع البنية البلورية (CIF): حوالي 615.5 مليون رمز
وصف النص: حوالي 3.1 مليار رمز تتضمن عملية بناء مجموعة البيانات هذه جمع ملفات CIF الأصلية وخصائص المواد من قواعد بيانات المواد الرئيسية المتعددة، وإنشاء أوصاف لغة هيكلية تلقائيًا استنادًا إلى البنية البلورية، وبالتالي تشكيل عينة بيانات هيكلية موحدة ومتعددة الوسائط. يحتوي كل سجل عينة على معرف المادة المقابلة، والصيغة الكيميائية، وقيم الخصائص (مثل فجوة النطاق، وطاقة التكوين، والكثافة، ومعامل المرونة، وما إلى ذلك) وغيرها من المعلومات. الهدف الأساسي لبرنامج LLM4Mat-Bench هو تعزيز التكامل المتبادل بين علم المواد ومعالجة اللغة الطبيعية، وتعزيز البحث وتطوير التطبيقات في مجالات تقييم النموذج المحدد للمهمة، والتنبؤ بالخصائص، وضبط التعليمات. إن خصائصها المتعددة المصادر والوسائط والنطاق الواسع تجعلها مرجعًا مهمًا في أبحاث نماذج اللغة المادية.

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

ناقش على Discord

التاريخ

منذ عام واحد

المؤسسة

عنوان URL للنشر

رابط الورقة البحثية

الوسوم

معالجة اللغة الطبيعية

إجمالي كمية البيانات:

وضع تكوين البلورة (التكوين): حوالي 4.7 مليون رمز
وضع البنية البلورية (CIF): حوالي 615.5 مليون رمز
وصف النص: حوالي 3.1 مليار رمز تتضمن عملية بناء مجموعة البيانات هذه جمع ملفات CIF الأصلية وخصائص المواد من قواعد بيانات المواد الرئيسية المتعددة، وإنشاء أوصاف لغة هيكلية تلقائيًا استنادًا إلى البنية البلورية، وبالتالي تشكيل عينة بيانات هيكلية موحدة ومتعددة الوسائط. يحتوي كل سجل عينة على معرف المادة المقابلة، والصيغة الكيميائية، وقيم الخصائص (مثل فجوة النطاق، وطاقة التكوين، والكثافة، ومعامل المرونة، وما إلى ذلك) وغيرها من المعلومات. الهدف الأساسي لبرنامج LLM4Mat-Bench هو تعزيز التكامل المتبادل بين علم المواد ومعالجة اللغة الطبيعية، وتعزيز البحث وتطوير التطبيقات في مجالات تقييم النموذج المحدد للمهمة، والتنبؤ بالخصائص، وضبط التعليمات. إن خصائصها المتعددة المصادر والوسائط والنطاق الواسع تجعلها مرجعًا مهمًا في أبحاث نماذج اللغة المادية.

مجموعات البيانات ذات الصلة

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

منذ 3 أشهر

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

منذ 4 أشهر

مجموعة بيانات تقييم قدرات التخطيط طويل الأجل من DeepPlanning

منذ 5 أشهر

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

منذ 5 أشهر

مجموعة بيانات التنبؤ بانقطاع المرضى

منذ 5 أشهر

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

منذ 6 أشهر

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

منذ 6 أشهر

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

منذ 6 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات بنية البلورات LLM4Mat-Bench

إجمالي كمية البيانات:

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات بنية البلورات LLM4Mat-Bench

إجمالي كمية البيانات:

مجموعات البيانات ذات الصلة

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات تقييم قدرات التخطيط طويل الأجل من DeepPlanning

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات التنبؤ بانقطاع المرضى

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات بنية البلورات LLM4Mat-Bench

إجمالي كمية البيانات:

مجموعات البيانات ذات الصلة

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات تقييم قدرات التخطيط طويل الأجل من DeepPlanning

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات التنبؤ بانقطاع المرضى

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات تقييم قدرات التخطيط طويل الأجل من DeepPlanning

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات التنبؤ بانقطاع المرضى

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

مجموعات البيانات ذات الصلة

مجموعة بيانات أحداث الفيضانات العالمية من Groundsource

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات تقييم قدرات التخطيط طويل الأجل من DeepPlanning

مجموعة بيانات LightOnOCR-mix-0126 لنسخ النصوص

مجموعة بيانات التنبؤ بانقطاع المرضى

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro