يغطي تصميم المواد غير العضوية/التنبؤ بالبنية البلورية/تسجيل خصائص المواد، وما إلى ذلك، ويلخص مجموعات البيانات والنماذج مفتوحة المصدر من Meta/Microsoft والمؤسسات الأخرى

على خلفية التكامل المتسارع بين الذكاء الاصطناعي وعلوم المواد، أصبحت مجموعات البيانات تدريجيا المحرك الأساسي الذي يقود التحول النموذجي في أبحاث المواد. إن الانتقال من أساليب الحوسبة التقليدية القائمة على النماذج الفيزيائية إلى التنبؤ الذكي القائم على البيانات لا يعتمد فقط على تحسين أداء الخوارزمية، بل يعتمد أيضًا على دعم بيانات المواد عالية الجودة. إن شمولية البيانات ودقتها وإمكانية تكرارها تحدد بشكل مباشر الحد الأعلى لأداء النموذج في المهام مثل التنبؤ بخصائص المواد وتوليد البنية واكتشاف الوظيفة.
على عكس المجالات مثل الصور أو اللغة الطبيعية، فإن بيانات المواد منظمة للغاية ولديها خصائص مثل القيود الفيزيائية المعقدة والاقتران متعدد المقاييس والاندماج عبر الوسائط، مما يجعل عتبة إنشاء مجموعة البيانات الخاصة بها أعلى. سواء كانت نتائج الحسابات الأولية أو بيانات القياس التجريبية، فإن جمعها وتنظيفها وتوحيدها ووضع العلامات عليها وتخزينها يجب أن يتبع عمليات علمية صارمة لضمان مصداقية البيانات وقدرتها على التعميم.
وعلى وجه الخصوص، فإن التنظيم المنهجي لبيانات البنية البلورية وخصائص المواد يجعل المسار من النمذجة الفيزيائية الأساسية إلى نمذجة التعلم الآلي أكثر جدوى. توفر المعلومات متعددة الأبعاد الموجودة في مجموعة البيانات، مثل طاقة التكوين، وفجوة النطاق، والحجم، والكثافة، وما إلى ذلك، أساسًا قويًا للبيانات للباحثين للقيام بالتنبؤ بالخصائص، وفحص المواد، وتحليل التطبيقات المحتملة. وفي الوقت نفسه، تعمل التنسيقات القياسية وأنظمة التسمية الموحدة والبيانات الوصفية الغنية أيضًا على تحسين إمكانية تتبع البيانات وتوافرها عبر الأنظمة الأساسية بشكل كبير.
من أجل مساعدة الباحثين في المجالات ذات الصلة على إجراء البحوث بشكل أفضل،قامت HyperAI بتجميع مجموعات بيانات علوم المواد التي تحظى حاليًا باهتمام واسع النطاق في الصناعة، بالإضافة إلى دروس تعليمية للنشر بنقرة واحدة.يغطي الكتاب اتجاهات رئيسية متعددة مثل المواد الكمومية والمواد غير العضوية والبنى البلورية وما إلى ذلك، وهو يسمح للبيانات المادية المعقدة والواسعة النطاق بخدمة الباحثين حقًا.
انقر هنا لعرض المزيد من مجموعات البيانات مفتوحة المصدر:https://go.hyper.ai/g9PvL
ملخص مجموعة بيانات المواد
1. مجموعة بيانات المواد غير العضوية OMat24
الحجم المقدر:185.67 جيجابايت
عنوان التنزيل:https://go.hyper.ai/hptlY
في عام 2024، أصدرت شركة Meta مجموعة بيانات مفتوحة المصدر واسعة النطاق Open Materials 2024 (OMat24)، والتي تحتوي على أكثر من 110 مليون نتيجة حساب DFT تركز على التنوع البنيوي والتكويني، وتغطي تكوينات ذرية مختلفة تم أخذ عينات منها من هياكل متوازنة وغير متوازنة. وهي حاليًا أكبر مجموعة بيانات مفتوحة المصدر لتدريب نماذج DFT البديلة للمواد.
2. مجموعة بيانات المواد الكمومية مفتوحة المصدر OQMD
الحجم المقدر:32.89 جيجابايت
عنوان التنزيل:https://go.hyper.ai/qDyGS
تحتوي مجموعة بيانات OQMD على خصائص ترموديناميكية وبنيوية لأكثر من 1,226,781 مادة تم حسابها بواسطة نظرية الكثافة الوظيفية (DFT). وتأتي البيانات من قاعدة بيانات البنية البلورية غير العضوية (ICSD)، بما في ذلك حسابات الطاقة الكلية DFT لنحو 300 ألف مركب وتعديلات على الهياكل البلورية الشائعة، بهدف تخزين بيانات المواد الكمومية ومشاركتها.
3. مجموعة بيانات المواد عبر الإنترنت لمشروع المواد
عنوان التنزيل:https://go.hyper.ai/ELmmX
مشروع المواد عبارة عن مجموعة كبيرة من بيانات المواد المفتوحة عبر الإنترنت. تتضمن البيانات البنية البلورية وخصائص الطاقة والبنية الإلكترونية والخصائص الديناميكية الحرارية، وتغطي جوانب متعددة مثل تمثيل المواد والخصائص البصرية الإلكترونية والخصائص الميكانيكية والخصائص الفيزيائية والكيميائية والاستقرار والتفاعلية والخصائص الديناميكية الحرارية والخصائص المغناطيسية.
4. مجموعة بيانات بنية البلورات LLM4Mat-Bench
عنوان التنزيل:https://go.hyper.ai/fSTbI
LLM4Mat-Bench عبارة عن مجموعة بيانات لتقييم نموذج اللغة متعدد الوسائط للتنبؤ بخصائص المواد. يحتوي على ما يقرب من 1.97 مليون عينة من البنية البلورية من 10 قواعد بيانات للمواد العامة، تغطي 45 خاصية فيزيائية وكيميائية مختلفة للمواد. إنه أكبر معيار حتى الآن لتقييم أداء نماذج اللغة الكبيرة (LLMs) للتنبؤ بخصائص المواد.
5. مجموعة بيانات خصائص مادة DFT المادية
عنوان التنزيل:https://go.hyper.ai/ju56p
توفر مجموعة البيانات هذه عددًا كبيرًا من سجلات خصائص المواد عالية الجودة من قاعدة بيانات مشروع المواد، والتي تغطي مجموعة متنوعة من التركيبات الكيميائية والخصائص الفيزيائية. يتوافق كل سجل مع مادة فريدة، ويتم الحصول على جميع الخصائص من خلال حسابات نظرية الكثافة الوظيفية (DFT).
دروس تعليمية كلاسيكية
بالإضافة إلى البيانات عالية الجودة، أطلق الموقع الرسمي لـ HyperAI أيضًا "نموذج تصميم المواد غير العضوية MatterGen Demo"، والذي يدعم النشر بنقرة واحدة، مما يقلل بشكل كبير من عتبة الاستخدام.
عنوان البرنامج التعليمي:https://go.hyper.ai/5mWaL

MatterGen هو نموذج تصميم مواد غير عضوية يعتمد على الذكاء الاصطناعي أطلقته شركة Microsoft، ويهدف إلى إنشاء مواد جديدة بشكل مباشر بخصائص كيميائية أو ميكانيكية أو إلكترونية أو مغناطيسية محددة من خلال نماذج الانتشار.
على وجه التحديد، يعتمد نموذج MatterGen بشكل أساسي على بنية الانتشار. أولاً، يقوم تدريجياً بتدمير النوع الذري، والموضع الذري، والشبكة الدورية في بنية عشوائية، ثم يقوم بتدريب نموذج لإكمال هذه العملية في الاتجاه المعاكس، مما يسمح للنموذج بتعلم كيفية استعادة البنية المادية الأصلية تدريجياً من الضوضاء العشوائية. ويعتقد شيه تيان، المؤلف المراسل للورقة البحثية، أن هذا مشابه جدًا للفكرة الأساسية لتوليد الفيديو.
ما ورد أعلاه هو مجموعة البيانات المادية التي تم تجميعها بواسطة HyperAI. إذا كان لديك موارد تريد تضمينها على الموقع الرسمي لـ hyper.ai، فنحن نرحب بك لترك رسالة أو تقديم مساهمة لإخبارنا بها!