HyperAI

يغطي تقريبا الجدول الدوري للعناصر! تُصدر Meta مجموعة بيانات OMat24 مفتوحة المصدر، تحتوي على 110 مليون نتيجة حسابية DFT

特色图像

مع استمرار نمو الطلب العالمي على الطاقة المتجددة، تكتسب تقنية تخزين الطاقة المزيد والمزيد من الاهتمام كحل يمكنه تخزين الطاقة وإطلاقها عند الحاجة إليها. ومع ذلك، فإن العديد من تكنولوجيات تخزين الطاقة المتجددة تتطلب تكاليف استثمارية أولية عالية، كما أنها صعبة التشغيل والصيانة، ولا تزال في مرحلة البحث والتطوير أو العرض التوضيحي.

وفي ضوء ذلك،في عام 2020، أطلق مختبر أبحاث الذكاء الاصطناعي التابع لفيسبوك (FAIR)، والذي لم تتم إعادة تسميته بعد، وجامعة كارنيجي ميلون مشروع Open Catalyst بشكل مشترك.الهدف هو استخدام الذكاء الاصطناعي لاكتشاف محفزات جديدة لتخزين الطاقة المتجددة. وبالتزامن مع إطلاق هذا المشروع، أطلق فريق البحث مجموعة بيانات محاكاة المحفز OC20.

عنوان تنزيل مجموعة بيانات OC20:
https://go.hyper.ai/dYeNS
في عام 2022، قام فريق البحث بتوسيع وإطلاق مجموعة بيانات Open Catalyst 2022 (OC22) استنادًا إلى مجموعة بيانات OC20، مما يجعل تدريب النموذج أكثر دقة.
عنوان تنزيل مجموعة بيانات OC22
https://go.hyper.ai/9FhFL

في الآونة الأخيرة، حققت شركة Meta مرة أخرى تقدمًا جديدًا في مجال علم المواد، من خلال إصدار مجموعة بيانات مفتوحة المصدر واسعة النطاق Open Materials 2024 (OMat24) ومجموعة من النماذج المدربة مسبقًا الداعمة. تحتوي مجموعة بيانات OMat24 على أكثر من 110 مليون نتيجة لحساب نظرية الكثافة الوظيفية (DFT) التي تركز على التنوع البنيوي والتكويني. يتم تدريب النموذج المدرب مسبقًا باستخدام نموذج EquformerV2 (eqV2)، حيث يحقق نموذج eqV2-M أداءً متطورًا على لوحة صدارة Matbench Discovery، وهو قادر على التنبؤ باستقرار الحالة الأرضية وطاقة التكوين، مما يضع معيارًا جديدًا للتنبؤ باستقرار المواد.

أبرز الأبحاث:
* تم بناء مجموعة بيانات OMat24 على أساس مجموعات البيانات مفتوحة المصدر مثل MPtrj، وMaterials Project، وAlexandria. العناصر الموجودة في مجموعة البيانات تغطي الجدول الدوري بأكمله تقريبًا. 

* النماذج المدربة مسبقًا متوفرة بثلاثة أحجام: eqV2-S، وeqV2-M، وeqV2-L. يتمتع نموذج eqV2-M بدرجة F1 تبلغ 0.916 على لوحة صدارة Matbench Discovery، مع خطأ مطلق متوسط يبلغ 20 ميغا فولت/ذرة فقط


عنوان الورقة:
https://arxiv.org/pdf/2410.12771
تابع الحساب الرسمي ورد على "OMat24" للحصول على الورقة كاملة بصيغة PDF

عنوان تنزيل مجموعة البيانات OMat24:
https://go.hyper.ai/gALHP

يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:

https://github.com/hyperai/awesome-ai4s

تحتوي مجموعة بيانات OMat24 على أكثر من 110 مليون نتيجة حساب DFT تغطي تكوينات ذرية مختلفة.

تُعد مجموعة بيانات OMat24 واحدة من أكبر مجموعات البيانات مفتوحة المصدر المستخدمة حاليًا لتدريب نماذج استبدال DFT للمواد.تتكون مجموعة البيانات من حسابات DFT أحادية النقطة والاسترخاءات الهيكلية والمسارات الديناميكية الجزيئية لمجموعة من المواد السائبة غير العضوية.وفي المجمل، قام الباحثون بحساب حوالي 118 مليون بنية مع شرح الطاقة الكلية والقوى (معيار القوى) وإجهاد الخلية الوحدوية (الإجهاد)، باستخدام أكثر من 400 مليون ساعة أساسية من موارد الحوسبة.

تم إنشاء هذه الهياكل من خلال ثلاث تقنيات: أخذ عينات بولتزمان من الهياكل المهتزة، وديناميكيات الجزيئات الأولية (AIMD)، واسترخاء الهياكل المهتزة.

نظرة عامة على إنشاء مجموعة بيانات OMat24 ومجالات التطبيق واستراتيجيات أخذ العينات

تحتوي مجموعة بيانات OMat24 على مجموعة واسعة من توزيعات الطاقة والقوة والإجهاد. يوضح الشكل أدناه توزيع الطاقة الكلية (المعبر عنها بوحدة إلكترون فولت/ذرة)، والقوى (المعبر عنها بوحدة إلكترون فولت/أمبير)، والإجهاد (المعبر عنه بوحدة جيجا باسكال) لمجموعة البيانات OMat24، ومجموعة البيانات MPtrj، ومجموعة البيانات الإسكندرية.

* تحتوي مجموعة بيانات MPtrj (مجموعة بيانات مسار مشروع المواد) على نتائج حساب DFT لأكثر من 1.5 مليون بنية غير عضوية. بسبب حجمها الكبير وتنوعها، فإنها تتمتع بقيمة تطبيقية مهمة في مجالات علوم المواد وعلوم المواد الحاسوبية. 

* مجموعة بيانات الإسكندرية هي قاعدة بيانات للكيمياء الكمومية توفر كمية كبيرة من بيانات الخصائص الجزيئية لتطوير مجال القوة والتطوير الوظيفي للكثافة وتقييمها.

يمثل الخط المنقط البرتقالي مجموعة بيانات MPtrj، ويمثل الخط المنقط الأزرق مجموعة بيانات الإسكندرية، ويمثل الخط المتصل الأخضر مجموعة بيانات OMat24.

يمكن ملاحظة أن توزيع الطاقة لمجموعة البيانات OMat24 أعلى قليلاً من توزيع الطاقة لمجموعة بيانات الإسكندرية المستخدمة كبنية إدخال، وأعلى بشكل كبير من توزيع الطاقة لمجموعة بيانات MPtrj؛ إن توزيع القوة والإجهاد في الخلية الوحدوية لمجموعة البيانات OMat24 أعلى بكثير من توزيع مجموعات البيانات MPtrj وAlexandria.

ومن الجدير بالذكر أن العناصر المدرجة في مجموعة بيانات OMat24 تغطي الجدول الدوري تقريبًا.كما هو موضح في الشكل التالي:

توزيع العناصر في مجموعة بيانات OMat24

على الرغم من أن مجموعة البيانات OMat24 تتمتع بمزايا مقارنة بمجموعات البيانات الأخرى، إلا أن الباحثين أشاروا أيضًا إلى أن مجموعة البيانات لا تزال بها قيود. تعتمد مجموعة البيانات هذه على حسابات DFT على مستويات PBE وPBE+U. فهو يحتوي فقط على هياكل جماعية دورية ولا يأخذ في الاعتبار التأثيرات المهمة للعيوب النقطية والأسطح والنسب غير المتكافئة والهياكل منخفضة الأبعاد. لذلك، هناك أخطاء تقريب متأصلة، ولكن تم حل هذه الأخطاء إلى حد ما في وظائف أخرى.

وكما هو موضح في الشكل أدناه، قارن الباحثون نتائج الحسابات في مجموعة بيانات WBM مع نتائج حسابات النقطة الفردية باستخدام إعداد DFT الخاص بـ OMat24 ووجدوا أن متوسط الخطأ المطلق بين الاثنين كان 52.25 ميغا فولت/ذرة.
* مجموعة بيانات WBM عبارة عن قاعدة بيانات مواد حسابية واسعة النطاق تحتوي على البنية الإلكترونية والخصائص الديناميكية الحرارية لعدد كبير من المواد المحسوبة باستخدام DFT، مثل طاقة التكوين، وتغير الإنتروبيا، والسعة الحرارية النوعية، وما إلى ذلك.

رسم تخطيطي يقارن نتائج حساب مجموعة بيانات WBM مع نتائج حساب النقطة الفردية لإعداد DFT OMat24

باستخدام EquformerV2 كهندسة نموذجية، يتم إجراء تدريب النموذج بناءً على ثلاث مجموعات بيانات رئيسية

استخدم الباحثون مجموعة البيانات OMat24 مع مجموعة البيانات MPtrj ومجموعة البيانات Alexandria لتدريب النموذج.نظرًا لوجود هياكل مماثلة في مجموعة بيانات الإسكندرية ومجموعة بيانات WBM المستخدمة للاختبار، قام الباحثون بأخذ عينات فرعية من مجموعة بيانات الإسكندرية للتدريب للتأكد من عدم وجود أي إغفالات بين مجموعة بيانات التدريب ومجموعة بيانات الاختبار.

أولاً، قام الباحثون بإنشاء مجموعة فرعية جديدة من الإسكندرية (sAlexandria) عن طريق إزالة جميع الأجزاء التي تتطابق مع الهياكل الأولية والمريحة لـ WBM. لتقليل مجموعة البيانات، قام الباحثون بإزالة الهياكل ذات الطاقة الإجمالية > 0 إلكترون فولت، ومعيار القوة > 50 إلكترون فولت/أنجستروم، والإجهاد > 80 جيجا باسكال. وأخيرا، تم أخذ عينات فقط من الهياكل التي تحتوي على فروق طاقة أكبر من 10 ميجا فولت/ذرة في المسارات المتبقية. تحتوي مجموعات البيانات الناتجة للتدريب والتحقق على 10 ملايين و500000 بنية، على التوالي.

بالنسبة لهندسة النموذج، اختار الباحثون EquiformerV2، وهو النموذج الأفضل أداءً حاليًا على لوحات الصدارة OC20 وOC22 وODAC23.

بالنسبة لتدريب النموذج، استكشف الباحثون ثلاث استراتيجيات:

* تم تدريب نموذج EquiformerV2 على مجموعة بيانات OMat24 فقط، مع أهداف زيادة الضوضاء وبدونها. تتمتع هذه النماذج بأقوى أهمية مادية لأنها مناسبة فقط لمجموعات البيانات التي تحتوي على تحديثات مهمة للإمكانات الزائفة الأساسية بالنسبة لإعداد مشروع المواد القديم.

* يمكن استخدام نماذج EquiformerV2 المدربة فقط على مجموعة بيانات MPtrj، مع أو بدون هدف زيادة الضوضاء، للمقارنة المباشرة مع لوحة المتصدرين Matbench Discovery (المميزة كنماذج متوافقة).

* مزيد من الضبط الدقيق لـ OMat24 أو OC20 على مجموعات البيانات المجمعة MPtrj أو sAlexandria لتدريب نموذج EquiformerV2، مما يجعله النموذج الأفضل أداءً على لوحة المتصدرين Matbench Discovery (تم وضع علامة عليه كنموذج غير متوافق).

يوضح الجدول التالي العدد الإجمالي للمعلمات ومعدل إنتاج الاستدلال للنموذج المدرب استنادًا إلى بنية EquiformerV2 والنماذج ذات المواصفات المختلفة:

مواصفات مختلفة للتدريب النموذجي

النموذج المدرب باستخدام EquiformerV2 يحقق أفضل أداء في تصنيف Matbench-Discovery

استخدم الباحثون معيار Matbench-Discovery لتقييم نموذج EquiformerV2، وأظهرت النتائج أن كل من النماذج المتوافقة (المدربة فقط باستخدام MPtrj) وغير المتوافقة (المدربة ببيانات إضافية) حققت أداءً جيدًا.حقق نموذج EquiformerV2 أفضل أداء على لوحة المتصدرين (درجة F1 هي مؤشر التقييم الرئيسي).

يوضح الشكل التالي أداء النماذج غير المتوافقة الأخرى على لوحة المتصدرين الخاصة بـ Matbench-Discovery.

مصدر الصورة: الموقع الرسمي لـ Matbench-Discovery

تظهر النتائج أن نموذج eqV2-M له درجة F1 تبلغ 0.916، وخطأ مطلق متوسط (MAE) يبلغ 20 ميغا فولت/ذرة، وخطأ جذر متوسط مربع (RMSE) يبلغ 72 ميغا فولت/ذرة، مما يضع معيارًا جديدًا للتنبؤ باستقرار المواد.

بالإضافة إلى ذلك، يعمل نموذج EquiformerV2 المدرب فقط على مجموعة بيانات MPtraj بشكل جيد أيضًا، وذلك بفضل استراتيجيات زيادة البيانات الفعالة مثل إزالة الضوضاء من الهياكل غير المتوازنة (DeNS). كما يمكن أن نرى من الجدول أعلاه، فإن النموذج المدرب مسبقًا استنادًا إلى مجموعة بيانات OMat24 يتفوق على النموذج التقليدي من حيث الدقة، وخاصة عند التعامل مع التكوينات غير المتوازنة.

يصبح المصدر المفتوح بمثابة مسرع لدمج علم المواد والذكاء الاصطناعي

في عصر البيانات الحالي، تعمل الذكاء الاصطناعي على إعادة تشكيل نموذج البحث في علم المواد بسرعته ودقته غير المسبوقة. وعلى وجه الخصوص، فإن المعرفة والأدوات والبيانات مفتوحة المصدر المتعلقة بالذكاء الاصطناعي في مجال علم المواد سوف تتيح لعدد أكبر من الباحثين والمطورين وحتى المتحمسين الفرصة للمشاركة في عملية الابتكار والعمل معًا لتعزيز تطوير علم المواد.

بخصوص إصدار مجموعة البيانات مفتوحة المصدر OMat24 ونموذجها،قال ماكس ويلينج، خبير التعلم الآلي وكبير العلماء في Microsoft Research، على وسائل التواصل الاجتماعي: "أنا متحمس بشكل خاص لمجموعة البيانات الجديدة OMat24، والتي أنتجت نموذجًا أساسيًا جديدًا لمجال قوة التعلم الآلي على مستوى SOTA."

في الواقع، في وقت مبكر من عام 2011، أصدر مختبر بيركلي الوطني (LBNL) في الولايات المتحدة مشروع المواد.تحتوي مجموعة البيانات هذه على كمية كبيرة من البيانات الحسابية حول المواد غير العضوية، مثل البنية البلورية، والبنية الإلكترونية، والخصائص الديناميكية الحرارية، وأصبحت موردًا مهمًا للبيانات لأبحاث علوم المواد الحالية.
عنوان الورقة:
https://go.hyper.ai/KExvK

عنوان تنزيل مجموعة بيانات مشروع المواد:

https://go.hyper.ai/BOQS0

ومن الأمثلة الأخرى جامعة نورث وسترن في الولايات المتحدة، التي أصدرت مجموعة بيانات المواد الكمية مفتوحة المصدر OQMD في عام 2013.ويحتوي على النتائج المحسوبة للخصائص الديناميكية الحرارية والبنيوية لـ 1،226،781 مادة ويُستخدم على نطاق واسع لتحليل DFT عالي الإنتاجية لتطبيقات المواد المختلفة.
عنوان الورقة:
https://www.nature.com/articles/npjcompumats201510

عنوان تنزيل مجموعة بيانات OQMD:
https://go.hyper.ai/X4fE5

في عام 2018، أصدر معهد ماساتشوستس للتكنولوجيا (MIT) نموذج CGCNN.يستخدم هذا النموذج على نطاق واسع في علم المواد ويستخدم الشبكات العصبية الرسومية للتنبؤ بخصائص المواد، مثل فجوة النطاق، والمغناطيسية، والاستقرار الديناميكي الحراري للمواد البلورية.
عنوان الورقة:
https://arxiv.org/pdf/1710.10324

في عام 2020، أصدر المعهد الوطني للمعايير والتكنولوجيا (NIST) منصة JARVIS مفتوحة المصدر.التركيز على التنبؤ بخصائص المواد والبنية الإلكترونية. JARVIS-ML هي وحدة التعلم الآلي الخاصة بها، والتي توفر مجموعات بيانات غنية وأدوات فحص المواد القائمة على التعلم الآلي، وتدعم DFT ومحاكاة الديناميكيات الجزيئية والتعلم الآلي، ويمكن أن تساعد الباحثين في فحص المواد الجديدة واكتشافها بسرعة.
عنوان الورقة:
https://arxiv.org/abs/2007.01831

في عام 2021، أصدر المعهد الوطني للمعايير والتكنولوجيا نموذج ALIGNN.يمكن لهذا النموذج تحسين دقة التنبؤ بخصائص المواد بشكل فعال من خلال تقديم الرسوم البيانية الخطية لالتقاط التفاعلات المعقدة بين الذرات.
عنوان الورقة:
https://www.nature.com/articles/s41524-021-00650-1

ومن الممكن ملاحظة أنه من الفحص عالي الإنتاجية إلى التصميم الآلي للمواد، أصبح المصدر المفتوح مسرعًا مهمًا لتعزيز تكامل علم المواد والذكاء الاصطناعي، ويقود علم المواد إلى عصر جديد من الذكاء والكفاءة الأكبر.

مراجع:

1.https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/

2.https://www.notebookcheck.net/Meta-unveils-OMat24-AI-powered-materials-discovery-goes-open-source.904139.0.htm

3.https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/