يغطي تقريبا الجدول الدوري للعناصر! تُصدر Meta مجموعة بيانات OMat24 مفتوحة المصدر، تحتوي على 110 مليون نتيجة حسابية DFT

مع استمرار نمو الطلب العالمي على الطاقة المتجددة، تكتسب تقنية تخزين الطاقة المزيد والمزيد من الاهتمام كحل يمكنه تخزين الطاقة وإطلاقها عند الحاجة إليها. ومع ذلك، فإن العديد من تكنولوجيات تخزين الطاقة المتجددة تتطلب تكاليف استثمارية أولية عالية، كما أنها صعبة التشغيل والصيانة، ولا تزال في مرحلة البحث والتطوير أو العرض التوضيحي.
وفي ضوء ذلك،في عام 2020، أطلق مختبر أبحاث الذكاء الاصطناعي التابع لفيسبوك (FAIR)، والذي لم تتم إعادة تسميته بعد، وجامعة كارنيجي ميلون مشروع Open Catalyst بشكل مشترك.الهدف هو استخدام الذكاء الاصطناعي لاكتشاف محفزات جديدة لتخزين الطاقة المتجددة. وبالتزامن مع إطلاق هذا المشروع، أطلق فريق البحث مجموعة بيانات محاكاة المحفز OC20.
عنوان تنزيل مجموعة بيانات OC20:
https://go.hyper.ai/dYeNS
في عام 2022، قام فريق البحث بتوسيع وإطلاق مجموعة بيانات Open Catalyst 2022 (OC22) استنادًا إلى مجموعة بيانات OC20، مما يجعل تدريب النموذج أكثر دقة.
عنوان تنزيل مجموعة بيانات OC22
https://go.hyper.ai/9FhFL
في الآونة الأخيرة، حققت شركة Meta مرة أخرى تقدمًا جديدًا في مجال علم المواد، من خلال إصدار مجموعة بيانات مفتوحة المصدر واسعة النطاق Open Materials 2024 (OMat24) ومجموعة من النماذج المدربة مسبقًا الداعمة. تحتوي مجموعة بيانات OMat24 على أكثر من 110 مليون نتيجة لحساب نظرية الكثافة الوظيفية (DFT) التي تركز على التنوع البنيوي والتكويني. يتم تدريب النموذج المدرب مسبقًا باستخدام نموذج EquformerV2 (eqV2)، حيث يحقق نموذج eqV2-M أداءً متطورًا على لوحة صدارة Matbench Discovery، وهو قادر على التنبؤ باستقرار الحالة الأرضية وطاقة التكوين، مما يضع معيارًا جديدًا للتنبؤ باستقرار المواد.
أبرز الأبحاث:
* تم بناء مجموعة بيانات OMat24 على أساس مجموعات البيانات مفتوحة المصدر مثل MPtrj، وMaterials Project، وAlexandria. العناصر الموجودة في مجموعة البيانات تغطي الجدول الدوري بأكمله تقريبًا.
* النماذج المدربة مسبقًا متوفرة بثلاثة أحجام: eqV2-S، وeqV2-M، وeqV2-L. يتمتع نموذج eqV2-M بدرجة F1 تبلغ 0.916 على لوحة صدارة Matbench Discovery، مع خطأ مطلق متوسط يبلغ 20 ميغا فولت/ذرة فقط

عنوان الورقة:
https://arxiv.org/pdf/2410.12771
تابع الحساب الرسمي ورد على "OMat24" للحصول على الورقة كاملة بصيغة PDF
عنوان تنزيل مجموعة البيانات OMat24:
https://go.hyper.ai/gALHP
يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:
https://github.com/hyperai/awesome-ai4s
تحتوي مجموعة بيانات OMat24 على أكثر من 110 مليون نتيجة حساب DFT تغطي تكوينات ذرية مختلفة.
تُعد مجموعة بيانات OMat24 واحدة من أكبر مجموعات البيانات مفتوحة المصدر المستخدمة حاليًا لتدريب نماذج استبدال DFT للمواد.تتكون مجموعة البيانات من حسابات DFT أحادية النقطة والاسترخاءات الهيكلية والمسارات الديناميكية الجزيئية لمجموعة من المواد السائبة غير العضوية.وفي المجمل، قام الباحثون بحساب حوالي 118 مليون بنية مع شرح الطاقة الكلية والقوى (معيار القوى) وإجهاد الخلية الوحدوية (الإجهاد)، باستخدام أكثر من 400 مليون ساعة أساسية من موارد الحوسبة.
تم إنشاء هذه الهياكل من خلال ثلاث تقنيات: أخذ عينات بولتزمان من الهياكل المهتزة، وديناميكيات الجزيئات الأولية (AIMD)، واسترخاء الهياكل المهتزة.

تحتوي مجموعة بيانات OMat24 على مجموعة واسعة من توزيعات الطاقة والقوة والإجهاد. يوضح الشكل أدناه توزيع الطاقة الكلية (المعبر عنها بوحدة إلكترون فولت/ذرة)، والقوى (المعبر عنها بوحدة إلكترون فولت/أمبير)، والإجهاد (المعبر عنه بوحدة جيجا باسكال) لمجموعة البيانات OMat24، ومجموعة البيانات MPtrj، ومجموعة البيانات الإسكندرية.
* تحتوي مجموعة بيانات MPtrj (مجموعة بيانات مسار مشروع المواد) على نتائج حساب DFT لأكثر من 1.5 مليون بنية غير عضوية. بسبب حجمها الكبير وتنوعها، فإنها تتمتع بقيمة تطبيقية مهمة في مجالات علوم المواد وعلوم المواد الحاسوبية.
* مجموعة بيانات الإسكندرية هي قاعدة بيانات للكيمياء الكمومية توفر كمية كبيرة من بيانات الخصائص الجزيئية لتطوير مجال القوة والتطوير الوظيفي للكثافة وتقييمها.

يمكن ملاحظة أن توزيع الطاقة لمجموعة البيانات OMat24 أعلى قليلاً من توزيع الطاقة لمجموعة بيانات الإسكندرية المستخدمة كبنية إدخال، وأعلى بشكل كبير من توزيع الطاقة لمجموعة بيانات MPtrj؛ إن توزيع القوة والإجهاد في الخلية الوحدوية لمجموعة البيانات OMat24 أعلى بكثير من توزيع مجموعات البيانات MPtrj وAlexandria.
ومن الجدير بالذكر أن العناصر المدرجة في مجموعة بيانات OMat24 تغطي الجدول الدوري تقريبًا.كما هو موضح في الشكل التالي:

على الرغم من أن مجموعة البيانات OMat24 تتمتع بمزايا مقارنة بمجموعات البيانات الأخرى، إلا أن الباحثين أشاروا أيضًا إلى أن مجموعة البيانات لا تزال بها قيود. تعتمد مجموعة البيانات هذه على حسابات DFT على مستويات PBE وPBE+U. فهو يحتوي فقط على هياكل جماعية دورية ولا يأخذ في الاعتبار التأثيرات المهمة للعيوب النقطية والأسطح والنسب غير المتكافئة والهياكل منخفضة الأبعاد. لذلك، هناك أخطاء تقريب متأصلة، ولكن تم حل هذه الأخطاء إلى حد ما في وظائف أخرى.
وكما هو موضح في الشكل أدناه، قارن الباحثون نتائج الحسابات في مجموعة بيانات WBM مع نتائج حسابات النقطة الفردية باستخدام إعداد DFT الخاص بـ OMat24 ووجدوا أن متوسط الخطأ المطلق بين الاثنين كان 52.25 ميغا فولت/ذرة.
* مجموعة بيانات WBM عبارة عن قاعدة بيانات مواد حسابية واسعة النطاق تحتوي على البنية الإلكترونية والخصائص الديناميكية الحرارية لعدد كبير من المواد المحسوبة باستخدام DFT، مثل طاقة التكوين، وتغير الإنتروبيا، والسعة الحرارية النوعية، وما إلى ذلك.

باستخدام EquformerV2 كهندسة نموذجية، يتم إجراء تدريب النموذج بناءً على ثلاث مجموعات بيانات رئيسية
استخدم الباحثون مجموعة البيانات OMat24 مع مجموعة البيانات MPtrj ومجموعة البيانات Alexandria لتدريب النموذج.نظرًا لوجود هياكل مماثلة في مجموعة بيانات الإسكندرية ومجموعة بيانات WBM المستخدمة للاختبار، قام الباحثون بأخذ عينات فرعية من مجموعة بيانات الإسكندرية للتدريب للتأكد من عدم وجود أي إغفالات بين مجموعة بيانات التدريب ومجموعة بيانات الاختبار.
أولاً، قام الباحثون بإنشاء مجموعة فرعية جديدة من الإسكندرية (sAlexandria) عن طريق إزالة جميع الأجزاء التي تتطابق مع الهياكل الأولية والمريحة لـ WBM. لتقليل مجموعة البيانات، قام الباحثون بإزالة الهياكل ذات الطاقة الإجمالية > 0 إلكترون فولت، ومعيار القوة > 50 إلكترون فولت/أنجستروم، والإجهاد > 80 جيجا باسكال. وأخيرا، تم أخذ عينات فقط من الهياكل التي تحتوي على فروق طاقة أكبر من 10 ميجا فولت/ذرة في المسارات المتبقية. تحتوي مجموعات البيانات الناتجة للتدريب والتحقق على 10 ملايين و500000 بنية، على التوالي.
بالنسبة لهندسة النموذج، اختار الباحثون EquiformerV2، وهو النموذج الأفضل أداءً حاليًا على لوحات الصدارة OC20 وOC22 وODAC23.
بالنسبة لتدريب النموذج، استكشف الباحثون ثلاث استراتيجيات:
* تم تدريب نموذج EquiformerV2 على مجموعة بيانات OMat24 فقط، مع أهداف زيادة الضوضاء وبدونها. تتمتع هذه النماذج بأقوى أهمية مادية لأنها مناسبة فقط لمجموعات البيانات التي تحتوي على تحديثات مهمة للإمكانات الزائفة الأساسية بالنسبة لإعداد مشروع المواد القديم.
* يمكن استخدام نماذج EquiformerV2 المدربة فقط على مجموعة بيانات MPtrj، مع أو بدون هدف زيادة الضوضاء، للمقارنة المباشرة مع لوحة المتصدرين Matbench Discovery (المميزة كنماذج متوافقة).
* مزيد من الضبط الدقيق لـ OMat24 أو OC20 على مجموعات البيانات المجمعة MPtrj أو sAlexandria لتدريب نموذج EquiformerV2، مما يجعله النموذج الأفضل أداءً على لوحة المتصدرين Matbench Discovery (تم وضع علامة عليه كنموذج غير متوافق).
يوضح الجدول التالي العدد الإجمالي للمعلمات ومعدل إنتاج الاستدلال للنموذج المدرب استنادًا إلى بنية EquiformerV2 والنماذج ذات المواصفات المختلفة:

النموذج المدرب باستخدام EquiformerV2 يحقق أفضل أداء في تصنيف Matbench-Discovery
استخدم الباحثون معيار Matbench-Discovery لتقييم نموذج EquiformerV2، وأظهرت النتائج أن كل من النماذج المتوافقة (المدربة فقط باستخدام MPtrj) وغير المتوافقة (المدربة ببيانات إضافية) حققت أداءً جيدًا.حقق نموذج EquiformerV2 أفضل أداء على لوحة المتصدرين (درجة F1 هي مؤشر التقييم الرئيسي).
يوضح الشكل التالي أداء النماذج غير المتوافقة الأخرى على لوحة المتصدرين الخاصة بـ Matbench-Discovery.

تظهر النتائج أن نموذج eqV2-M له درجة F1 تبلغ 0.916، وخطأ مطلق متوسط (MAE) يبلغ 20 ميغا فولت/ذرة، وخطأ جذر متوسط مربع (RMSE) يبلغ 72 ميغا فولت/ذرة، مما يضع معيارًا جديدًا للتنبؤ باستقرار المواد.
بالإضافة إلى ذلك، يعمل نموذج EquiformerV2 المدرب فقط على مجموعة بيانات MPtraj بشكل جيد أيضًا، وذلك بفضل استراتيجيات زيادة البيانات الفعالة مثل إزالة الضوضاء من الهياكل غير المتوازنة (DeNS). كما يمكن أن نرى من الجدول أعلاه، فإن النموذج المدرب مسبقًا استنادًا إلى مجموعة بيانات OMat24 يتفوق على النموذج التقليدي من حيث الدقة، وخاصة عند التعامل مع التكوينات غير المتوازنة.
يصبح المصدر المفتوح بمثابة مسرع لدمج علم المواد والذكاء الاصطناعي
في عصر البيانات الحالي، تعمل الذكاء الاصطناعي على إعادة تشكيل نموذج البحث في علم المواد بسرعته ودقته غير المسبوقة. وعلى وجه الخصوص، فإن المعرفة والأدوات والبيانات مفتوحة المصدر المتعلقة بالذكاء الاصطناعي في مجال علم المواد سوف تتيح لعدد أكبر من الباحثين والمطورين وحتى المتحمسين الفرصة للمشاركة في عملية الابتكار والعمل معًا لتعزيز تطوير علم المواد.
بخصوص إصدار مجموعة البيانات مفتوحة المصدر OMat24 ونموذجها،قال ماكس ويلينج، خبير التعلم الآلي وكبير العلماء في Microsoft Research، على وسائل التواصل الاجتماعي: "أنا متحمس بشكل خاص لمجموعة البيانات الجديدة OMat24، والتي أنتجت نموذجًا أساسيًا جديدًا لمجال قوة التعلم الآلي على مستوى SOTA."

في الواقع، في وقت مبكر من عام 2011، أصدر مختبر بيركلي الوطني (LBNL) في الولايات المتحدة مشروع المواد.تحتوي مجموعة البيانات هذه على كمية كبيرة من البيانات الحسابية حول المواد غير العضوية، مثل البنية البلورية، والبنية الإلكترونية، والخصائص الديناميكية الحرارية، وأصبحت موردًا مهمًا للبيانات لأبحاث علوم المواد الحالية.
عنوان الورقة:
https://go.hyper.ai/KExvK
عنوان تنزيل مجموعة بيانات مشروع المواد:
ومن الأمثلة الأخرى جامعة نورث وسترن في الولايات المتحدة، التي أصدرت مجموعة بيانات المواد الكمية مفتوحة المصدر OQMD في عام 2013.ويحتوي على النتائج المحسوبة للخصائص الديناميكية الحرارية والبنيوية لـ 1،226،781 مادة ويُستخدم على نطاق واسع لتحليل DFT عالي الإنتاجية لتطبيقات المواد المختلفة.
عنوان الورقة:
https://www.nature.com/articles/npjcompumats201510
عنوان تنزيل مجموعة بيانات OQMD:
https://go.hyper.ai/X4fE5
في عام 2018، أصدر معهد ماساتشوستس للتكنولوجيا (MIT) نموذج CGCNN.يستخدم هذا النموذج على نطاق واسع في علم المواد ويستخدم الشبكات العصبية الرسومية للتنبؤ بخصائص المواد، مثل فجوة النطاق، والمغناطيسية، والاستقرار الديناميكي الحراري للمواد البلورية.
عنوان الورقة:
https://arxiv.org/pdf/1710.10324
في عام 2020، أصدر المعهد الوطني للمعايير والتكنولوجيا (NIST) منصة JARVIS مفتوحة المصدر.التركيز على التنبؤ بخصائص المواد والبنية الإلكترونية. JARVIS-ML هي وحدة التعلم الآلي الخاصة بها، والتي توفر مجموعات بيانات غنية وأدوات فحص المواد القائمة على التعلم الآلي، وتدعم DFT ومحاكاة الديناميكيات الجزيئية والتعلم الآلي، ويمكن أن تساعد الباحثين في فحص المواد الجديدة واكتشافها بسرعة.
عنوان الورقة:
https://arxiv.org/abs/2007.01831
في عام 2021، أصدر المعهد الوطني للمعايير والتكنولوجيا نموذج ALIGNN.يمكن لهذا النموذج تحسين دقة التنبؤ بخصائص المواد بشكل فعال من خلال تقديم الرسوم البيانية الخطية لالتقاط التفاعلات المعقدة بين الذرات.
عنوان الورقة:
https://www.nature.com/articles/s41524-021-00650-1
ومن الممكن ملاحظة أنه من الفحص عالي الإنتاجية إلى التصميم الآلي للمواد، أصبح المصدر المفتوح مسرعًا مهمًا لتعزيز تكامل علم المواد والذكاء الاصطناعي، ويقود علم المواد إلى عصر جديد من الذكاء والكفاءة الأكبر.
مراجع:
