HyperAIHyperAI

Command Palette

Search for a command to run...

من 9,874 ورقة بحثية إلى 15,000 بنية بلورية، يعيد MOF-ChemUnity بناء المعرفة البانورامية الخاصة بـ MOF، مما يدفع اكتشاف المواد إلى عصر "الذكاء الاصطناعي القابل للتفسير".

Featured Image

في مجال علوم المواد، تُعتبر الأطر المعدنية العضوية (MOFs) بمثابة "السكين السويسري" للعلماء: فهي تتميز بمساحة سطح نوعية عالية، وقابلية ضبط كيميائية عالية، وتنوع هيكلي، ولها تطبيقات واسعة في فصل الغازات وتخزينها، والتحفيز، والاستشعار. ومع ذلك، بالنسبة للباحثين، فإن عالم الأطر المعدنية العضوية واسع ومعقد للغاية - فقد تم تصنيع أكثر من 125,000 إطار من الأطر المعدنية العضوية حتى الآن، وتم حساب ملايين الهياكل المحتملة والتنبؤ بها.

على الرغم من أن الذكاء الاصطناعي قد غيّر مجال أبحاث MOF بشكل عميق،ومع ذلك، لا تزال معظم الطرق الحالية محدودة النطاق، وتركز بشكل أساسي على استخراج مجموعات بيانات الأداء الفردية أو الثابتة التي لا يمكن توسيع نطاقها بسهولة.حتى مع وجود مجموعات بيانات ضخمة لاستخراج النصوص، يُركز بشكل أكبر على استخلاص الأداء من الدراسات العلمية بدلاً من بناء روابط قوية مع البنى البلورية. ومن العوائق الرئيسية أمام تحقيق هذا التوحيد غياب معايير تسمية موحدة - على سبيل المثال، قد يُطلق على المركب نفسه اسم "HKUST-1" في الدراسات العلمية، ويُصنف "المركب 1" في إحدى المقالات، ويُسجل باسم "FIQCEN" في قاعدة بيانات كامبريدج للبنى (CSD). لا يقتصر هذا التناقض على الأطر العضوية المعدنية فحسب، بل ينتشر في علم المواد، مما يُصعّب على البشر وطلاب نماذج اللغة الكبيرة مطابقة البيانات عبر المصادر.

وعلى هذه الخلفية،اقترح فريق بحثي من جامعة تورنتو ومركز أبحاث ابتكار الطاقة النظيفة التابع للمجلس الوطني للبحوث في كندا MOF-ChemUnity: وهو عبارة عن رسم بياني معرفي منظم وقابل للتطوير والتوسيع.تستخدم هذه الطريقة LLM لإنشاء مطابقة موثوقة ودقيقة بين أسماء MOF ومرادفاتها في المراجع والبنى البلورية المسجلة في CSD، مما يُزيل الغموض بين أسماء MOF ومرادفاتها والبنى البلورية. في نسخته الحالية، يدمج MOF-ChemUnity ما يقرب من 10,000 مقالة علمية وأكثر من 15,000 بنية بلورية CSD وخصائصها الكيميائية الحسابية، مُقدمةً بصيغة قابلة للتشغيل الآلي. عند استخدامه كمصدر معرفي لتعزيز LLM، يُمكّن MOF-ChemUnity مساعدي الذكاء الاصطناعي من إجراء عمليات استدلال بناءً على معرفة شاملة بالمراجع.تظهر تقييمات الخبراء أن دقتها وإمكانية تفسيرها وموثوقيتها تتفوق على LLM القياسي في مهام مثل الاسترجاع واستنتاج العلاقة بين البنية والملكية والتوصية بالمواد.

وقد تم نشر نتائج البحث ذات الصلة، بعنوان "MOF-ChemUnity: نماذج لغوية كبيرة مستنيرة بالأدب لأبحاث الإطار المعدني العضوي"، في منشورات الجمعية الكيميائية الأمريكية.

أبرز الأبحاث:

* يتيح MOF-ChemUnity دمج المعلومات المنشورة عبر المنشورات وتحليلها من خلال تحديد جميع التسميات والأسماء وربطها بكيان مادي واحد.

* يسمح هذا الهيكل للباحثين بطرح أسئلة علمية رفيعة المستوى ويمكِّن نماذج الذكاء الاصطناعي من التفكير في الفضاء الكيميائي للإطار العضوي المعدني على أساس واقعي وقابل للتفسير، وبالتالي فتح طرق جديدة للتفاعل مع الأدبيات تتجاوز قراءة مقال واحد أو جمع البيانات يدويًا.

* بالنسبة للمجالات التي تواجه مشكلات مماثلة لـ MOF، مثل الافتقار إلى اتفاقيات التسمية القياسية وتباين البيانات، يوفر MOF-ChemUnity مخططًا قويًا للمعلومات الموحدة.

عنوان الورقة:

https://pubs.acs.org/doi/10.1021/jacs.5c11789
اتبع حساب WeChat الرسمي الخاص بنا وقم بالإجابة "MOF-ChemUnit" في الخلفية للحصول على ملف PDF كامل.

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://hyper.ai/papers

مجموعات البيانات: توفير منظور شامل للبيانات

تعتمد قاعدة بيانات MOF-ChemUnity على قاعدتي بيانات رئيسيتين:CoRE MOF 2019 وQMOF، بإجمالي أكثر من 31000 بنية بلورية فريدة.ولضمان موثوقية البيانات، احتفظ فريق البحث فقط بالإدخالات التي تحتوي على معلومات حول امتصاص الغاز أو بنية النطاق، وكان عليه أن يحصل على رموز مرجعية لقاعدة بيانات كامبريدج الهيكلية (CSD) لتتبعها إلى الأدبيات الأصلية.

باستخدام أساليب استخراج النصوص والبيانات (TDM)، حصل الباحثون على مقالات كاملة النصوص من ناشرين متعددين، بما في ذلك ACS وElsevier وRSC. وسواءً كانت المستندات بصيغة XML أو PDF، فقد حُوِّلت إلى ملفات Markdown موحدة لضمان معالجة فعّالة بواسطة نماذج الذكاء الاصطناعي اللاحقة.

بعد تطبيق سير عمل المطابقة، نجح الفريق في حل وربط 15,143 بنية بلورية MOF لـ 93%، مما أدى إلى تطابقها مع الأسماء والمرادفات في 9,874 منشورًا. والأهم من ذلك،لم يقم فريق البحث بمطابقة أسماء MOF مع الهياكل البلورية فحسب، بل حدد أيضًا المعلومات المرجعية في الأدبيات (مثل "المركب 1" الذي يشير إلى MOF محدد)، مما يضمن أن كل كيان MOF يشكل إدخالًا مقابلًا واحدًا لواحد في الرسم البياني للمعرفة، مما يضع أساسًا متينًا لتدريب النموذج اللاحق واستخراج المعلومات.

وبناءً على ذلك، قام فريق البحث أيضًا باستخراج الخصائص التجريبية والطرق التركيبية والتطبيقات الموصى بها للإطارات العضوية المعدنية، مما شكل كنزًا منظمًا يحتوي على أكثر من 70 ألف نقطة بيانات للخصائص وأكثر من 2500 اقتراح تطبيق، مما يوفر للعلماء منظورًا شاملاً للبيانات.

ChemUnity: رسم بياني للمعرفة منظم وقابل للتطوير والتوسيع

في MOF-ChemUnity، يعتبر الأساس هو إطار عمل نموذجي يتكون من عوامل مطابقة واستخراج LLM ورسم بياني للمعرفة:

وكيل مطابقة LLM

يهدف الجزء الأول من سير العمل إلى معالجة قضايا التعرف على الكيان المسمى والحل المرجعي وارتباط الكيان الفريد في MOF.تضمن حل الباحثين تزويد برنامج LLM بمعلومات مستمدة من بنية البلورات، ومطابقة أسماء الأطر العضوية المعدنية في الأوراق البحثية مع رموزها المرجعية لـ CSD. تضمنت هذه المعلومات رموز CSD المرجعية، ومعلمات الشبكة، والعقد المعدنية، والمجموعات الفراغية، والصيغ الجزيئية، والأسماء الكيميائية، والمرادفات المعروفة، وقد تم الحصول عليها جميعًا من خلال واجهة برمجة تطبيقات CSD في بايثون. طُلب من برنامج LLM العثور على أسماء الأطر العضوية المعدنية الفريدة في الأوراق البحثية التي تتوافق مع رموز CSD المرجعية المحددة، مما يضمن تطابقًا مباشرًا بين رموز CSD المرجعية وأسماء الأطر العضوية المعدنية في كل ورقة بحثية. كما احتاج برنامج LLM إلى العثور على جميع المراجع المرتبطة بالأطر العضوية المعدنية. ومن خلال فصل مهام مطابقة أسماء الأطر العضوية المعدنية وتحليل المراجع، أصبح من الممكن إجراء تقييم دقيق لدقة كل خطوة، مما يوفر أساسًا موثوقًا لاستخراج المعلومات لاحقًا. (انظر الشكل أدناه).

وكيل LLM لمطابقة واستخراج بيانات MOF

سير عمل استخراج المعلومات

سير العمل العام:يتم استخدام أسماء MOF المستخرجة من سير العمل المطابق لتكامل استخراج المعلومات؛ في هذا التكامل، تتلقى سير العمل المتعددة أسماء MOF وتستخرج معلومات مختلفة مرتبطة بها، مثل الخصائص والتطبيقات الموصى بها ومعلومات التوليف.

سير العمل المخصص:بالنسبة للخصائص المعقدة (مثل استقرار الماء)، يتم استخدام طريقة سلسلة التحقق (CoV) لضمان موثوقية نتائج الاستخراج وتقليل توليد "أوهام" الذكاء الاصطناعي.

رسم بياني للمعرفة MOF-ChemUnity Construction

عند تصميم MOF-ChemUnity، ركز الباحثون على ثلاثة أهداف رئيسية:القدرة على التوسع والترابط وإمكانية الاستعلام.

أولاً، يجب أن يكون الرسم البياني المعرفي قابلاً للتوسع والإضافة، وقادراً على دمج البيانات الجديدة بسلاسة مع نمو الأدبيات وقواعد البيانات الحاسوبية. ثانياً، يجب أن يدعم تحليل الكيانات عبر الوثائق، مما يضمن الربط الدقيق للاستشهادات المتعددة للمركب نفسه، بغض النظر عما إذا كانت صادرة عن أوراق بحثية أو تسميات أو قواعد بيانات مختلفة. ثالثاً، يجب أن يدعم الاستعلامات المحلية والعالمية، مما يتيح الاستعلامات الدقيقة (مثل شروط التوليف لإطار عمل عضوي واحد) والتحليلات الأوسع (مثل تحديد اتجاهات البنية والخصائص عبر مجالات التطبيق).

ولتحقيق هذه الأهداف،قام فريق البحث بتصميم نمط يحتوي على أنواع فريدة من العقد والعلاقات.يُمثَّل كل إطار عمل (MOF) كعقدة، مع نماذج للمنشورات وخطوات التوليف والخصائص والتطبيقات كعقد مستقلة، متصلة بعلاقات دلالية. يحتوي الرسم البياني للمعرفة المُولَّد على أكثر من 40,000 عقدة و3,200,000 علاقة. يُوضَّح المخطط الكامل، والرسم البياني للمعرفة الكامل، والرسوم البيانية الفرعية لكل إطار عمل (MOF) في الشكل التالي:

إنشاء بيانات MOF غير المتجانسة باستخدام الرسوم البيانية المعرفية

استرجاع وتوليد مُحسَّن بالرسومات البيانية (RAG مُحسَّن بالرسومات البيانية)

يسترجع نظام RAG المُحسّن بالرسومات المعلومات ذات الصلة ويستخدمها كسياق موجز للإجابة على الأسئلة العامة. كما يتضمن الإطار تضمينات قائمة على التعلم الآلي لتحديد الأطر العضوية المعدنية المتشابهة هيكليًا أو كيميائيًا، مما يُتيح إجابة أكثر تفصيلًا على الأسئلة.المكونات الأساسية - أداة الاستعلام وأداة Neighbor Finder - هي وحدات ويمكن استدعاؤها حسب الحاجة بواسطة وكيل الذكاء الاصطناعي.

توصيات وزارة المالية ومساحة التضمين

باستخدام أوصاف كيميائية وهندسية (RAC، وحجم المسام، وحجم المسام، إلخ)، تُسقط الأطر العضوية المعدنية في مساحة تضمين منخفضة الأبعاد، ويُوصى باستخدام مواد مماثلة باستخدام طريقة أقرب جار. يمكن تطبيق هذا على امتصاص الغازات، واحتجاز الكربون، وغيرها من السيناريوهات، مما يُحوّل التجربة البشرية إلى قواعد متوافقة مع التعلم الآلي.

عرض النتائج: يمكن للعلماء وأنظمة الذكاء الاصطناعي الاستفادة بشكل كامل من المعرفة الكاملة للإطارات العضوية المعدنية.

وباستخدام الإطار المذكور أعلاه، أجرى فريق البحث عملية التحقق من النظام وإثبات التطبيق:

التنبؤ باستقرار المياه

باستخدام مجموعة بيانات استقرار الماء من MOF-ChemUnity، درب الباحثون نموذج تصنيف تميّز بأداء استثنائي في التنبؤ باستقرار الماء، محققين دقة 80% ودرجة F1 86% (انظر الشكل أدناه). والأهم من ذلك، بما أن MOF-ChemUnity يتضمن أيضًا بيانات امتصاص ثاني أكسيد الكربون من عمليات المحاكاة الجزيئية، يُمكن للباحثين إجراء فحص مشترك لتحديد المواد التي تُلبي كلا المعيارين في آنٍ واحد.

التنبؤ باستقرار الماء في الأطر العضوية المعدنية باستخدام التعلم الآلي

توصية الخبراء والتحقق

غالبًا ما يُوصي الخبراء باستخدام الأطر العضوية المعدنية لتطبيقات مُحددة بناءً على الحدس أو الخبرة أو المعرفة في هذا المجال. ورغم قيمة هذه المعلومات في حد ذاتها، إلا أنه غالبًا ما يصعب تنظيم استخدامها أو تنظيمه. ولمعالجة هذه المشكلة، استفاد الباحثون من العلاقة بين توصيات الخبراء والبنى البلورية داخل منصة MOF-ChemUnity لدمج الأطر العضوية المعدنية في فضاء كيميائي مُدرك للبنية.

قام الباحثون بتقييم فعالية هذه الطريقة في تطبيقين باستخدام بيانات حاسوبية ذات صلة: تخزين الميثان واحتجاز ثاني أكسيد الكربون. وكما هو موضح في الشكل أدناه، أظهرت هذه الأطر العضوية المعدنية المجاورة (المُصنّفة على أنها مُوصى بها من قِبل النموذج) في كلا التطبيقين أداءً مُشابهًا للمواد المُوصى بها من قِبل الخبراء. وهذا يُشير إلى أن...بمجرد ربط حدس الخبير بالمساحة الهيكلية، يمكن لنماذج التعلم الآلي أن تتعلم من هذا الحدس وتجمعه مع البيانات التجريبية للتوصل إلى تنبؤات.

توزيعات امتصاص الميثان وثاني أكسيد الكربون لجميع المواد في قاعدة بيانات CoRE MOF 2019

يُعدّ تقييم قوة ودقة توصيات الخبراء أمرًا بالغ الأهمية. ولهذا الغرض، قارن الباحثون توزيع أداء الأطر العضوية المعدنية الموصى بها من قِبل الخبراء مع المواد المجاورة لها، بالإضافة إلى مواد أُخذت عينات عشوائية من قاعدة البيانات بأكملها. بالنسبة لتخزين الميثان، كان متوسط سعة امتصاص غاز الميثان للأطر العضوية المعدنية الموصى بها من قِبل الخبراء والأطر العضوية المعدنية المجاورة لها أعلى بكثير من متوسط مجموعة البيانات بأكملها، مما يشير إلى أن الخبراء اختاروا بفعالية مواد ذات أداء ممتاز لتخزين الميثان. يتوافق هذا مع الأبحاث السابقة، التي تشير إلى أن تخزين الميثان يتأثر بشكل أساسي بالخصائص الهندسية البديهية، مثل المسامية والسعة الفعالة، في ظل ظروف تأرجح الضغط.

وعلى النقيض من ذلك، بالنسبة لالتقاط ثاني أكسيد الكربون، فإن توزيع أداء الأطر العضوية المعدنية الموصى بها من قبل الخبراء يشبه توزيع أداء العينات العشوائية، مما يشير إلى أن حدس الخبراء أقل موثوقية في هذا المجال.

تطبيق مساعد الذكاء الاصطناعي للوثائق

قام بانيرجي وآخرون بتصنيع مادة MOF تعتمد على الليثيوم تسمى Ultralight MOF (ULMOF-5)، والتي أشاروا إليها باسم "المركب 1" في ورقتهم البحثية.عند الاستفسار عن استقرار ULMOF-5 في الماء باستخدام نموذج LLM القياسي، يُقدم النموذج إجابة "وهمية"، إذ يخلط بينه وبين MOF-5 القائم على الزنك والذي يحمل اسمًا مشابهًا ولكنه غير ذي صلة. في المقابل، يربط MOF-ChemUnity جميع المراجع بالبنية البلورية الصحيحة، ويلتقط علامة استقرار الماء ("غير مستقر") التي تُشير إليها عبارة "المركب 1 قابل للذوبان في الماء" في البحث. يستطيع النظام المقترح في هذه الدراسة استرجاع هذه المعلومات وتقديم إجابة قوية مع الاستشهادات والشروحات، مما يُحسّن الدقة والشفافية.

لتقييم النظام بشكل أعمق، قارن الباحثون استجابات أداة البحث الإرشادي المُحسّنة بالرسومات ونموذج ماجستير العلوم (GPT-4o) الأصلي في ثلاث مهام: استرجاع الحقائق، واستنتاج البنية والخصائص، وتوصية المواد. قيّم تسعة خبراء من MOF جودة ومصداقية الاستجابات في استبيان مُعمّى. يوضح الشكل (ج) أدناه أن مساعد البحث المُحسّن بالرسومات قد حقق درجات أعلى في جميع المهام. ركّز الخبراء بشكل خاص على المراجع المذكورة، والأمثلة المحددة، والادعاءات القابلة للتحقق، بينما كانت استجابات النموذج الأساسي غالبًا عامة، أو غير مُثبتة، أو غير قابلة للتحقق. يشير هذا إلى أن دمج المعرفة العلمية المُهيكلة في نموذج ماجستير العلوم يُمكن أن يُحسّن موثوقية الحقائق وثقة المستخدم.

RAG، استنادًا إلى الرسوم البيانية المعرفية، يعمل كمساعد للذكاء الاصطناعي للحصول على معلومات الأدبيات.

يمكن توسيع نطاق MOF-ChemUnity ليشمل فئات مواد أخرى.

تتجاوز أهمية منصة MOF-ChemUnity مجرد تكامل بيانات MOF الحالية؛ فهي توفر نموذجًا متعدد التخصصات وقابلًا للتطوير لإدارة وتحليل البيانات لأبحاث علوم المواد. في السنوات الأخيرة، ومع التطور السريع لأبحاث الأطر العضوية التساهمية، والزيوليت، والبوليمرات، والمواد المسامية، أظهرت بيانات المواد المختلفة تباينًا كبيرًا وتضاربًا في التسميات، مما جعل تكامل المعلومات بين الوثائق وقواعد البيانات عائقًا يعيق الاكتشاف العلمي. في ضوء ذلك، يوفر إطار الرسم البياني المعرفي الذي أنشأته MOF-ChemUnity مخططًا تفصيليًا لفئات المواد التالية:من خلال استخدام تحليل الكيان الموحد، وشرح العلاقة الأساسية، وطرق استخراج السمات، يمكن تحقيق الارتباط الفعال والإدارة المنهجية للبيانات من مصادر مختلفة حتى في الحقول التي تفتقر إلى التسمية الموحدة أو التي تحتوي على اختلافات كبيرة في تنسيقات البيانات.

وتعمل العديد من الفرق في الصناعة أيضًا على مشاريع مماثلة.على سبيل المثال، تراكمت ثروة من النتائج العلمية في كمٍّ هائل من الأدبيات الأكاديمية حول علوم المواد. ومع ذلك، عادةً ما يجمع الباحثون المعرفة العلمية المتناثرة في هذه الوثائق بصيغة نصية، ويُحللونها يدويًا، وهي عملية غالبًا ما تستغرق وقتًا طويلًا وتصعّب ضمان اكتمال المعلومات. إذا عُرضت معلومات علوم المواد في هذه الوثائق كمعرفة مُهيكلة، ثم جُمعت مع أساليب مثل ربط المعرفة، والدمج، والاستدلال لبناء رسم بياني لمعرفتها، يُمكن للباحثين الحصول على المعلومات بدقة وكفاءة.

كرّست مجموعة البروفيسور بان فنغ البحثية في كلية المواد الجديدة، التابعة لكلية الدراسات العليا بجامعة بكين - شنتشن، جهودها في السنوات الأخيرة لبناء الرسوم البيانية لمعارف المواد وحل التحديات العلمية والتقنية الرئيسية. وقد طوروا إطار عمل عالي الدقة والكفاءة لإزالة الغموض القائم على الأسماء والبحث عن المعلومات، حيث أنشأوا رسمًا بيانيًا لمعارف المواد يُسمى MatKG. وبناءً على هذا الأساس، اقترحت المجموعة في عام ٢٠٢٢ إطار عمل للتمثيل الدلالي يُمكّن من تضمين معارف علوم المواد. يُحسّن هذا الإطار جودة تمثيل كيانات المواد من خلال دمج المعلومات متعددة المصادر، مما يسمح بالاستقصاء الدقيق لكائنات مواد الكاثود لبطاريات الليثيوم أيون من أدبيات علوم المواد، وبناء رسم بياني لمعارف مواد الكاثود للتنبؤ بمواد بطاريات الليثيوم عالية الأداء.
عنوان الورقة:أتمتة استكشاف المواد باستخدام رسم بياني للمعرفة الدلالية لكاثودات بطاريات الليثيوم أيون
عنوان الورقة:https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437

من ناحية أخرى، مع إدخال صيغ موحدة مثل ملف معلومات الامتزاز (AIF) للاتحاد الدولي للكيمياء البحتة والتطبيقية (IUPAC)، يتيح تصميم MOF-ChemUnity دمجًا سلسًا للمعايير الجديدة، مما يحقق توحيد البيانات، وإمكانية تتبعها، وسهولة تفسيرها. وبهذه الطريقة، يمكن دمج تقارير الأدبيات الجديدة وبيانات المحاكاة الحاسوبية بسهولة في النظام، مما يتيح التوسع المستمر والتحديثات التكرارية لمجموعة البيانات. توفر هذه القدرة على التحديث المستدام أساسًا متينًا لفحص المواد عالي الإنتاجية ومتعدد الأهداف، وتتوافق مع الاتجاهات الحالية في مبادرات جينوم المواد ومبادئ بيانات FAIR، وتوفر للباحثين إطارًا تحليليًا قابلًا للتكرار والتحقق.

في المستقبل، تكمن إمكانات MOF-ChemUnity أيضًا في قدرته على العمل كمساعد علمي. فمن خلال تفاعل اللغة الطبيعية وأدوات الاستعلام البيانية، يمكن للباحثين طرح أسئلة معقدة، مثل "أيُّ أنواع MOFs مناسبة لإزالة الملوثات في البيئات المائية تتميز بثبات عالٍ وعقد معدنية محددة؟"، ويمكن للنظام تقديم إجابات قابلة للتحقق بناءً على البيانات المنشورة والتجارب والحسابات. هذا النهج، الذي يدمج الرسوم البيانية المعرفية وبرنامج ماجستير علوم المواد، يضع معيارًا جديدًا لتطبيقات الذكاء الاصطناعي في أبحاث علوم المواد.

مراجع:
1. https://pubs.acs.org/doi/10.1021/jacs.5c11789

2. https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437

3. https://news.pku.edu.cn/jxky/64f28e5b50074113bfaec41af68c1971.htm