HyperAIHyperAI
منذ 17 أيام

أخطاء التنبؤ بالتعلم الآلي أفضل من دقة DFT

{O. Anatole von Lilienfeld, George E. Dahl, Samuel S. Schoenholz, Bing Huang, Steven Kearnes, Patrick F. Riley, Luke Hutchison, Justin Gilmer, Felix A. Faber, Oriol Vinyals}
أخطاء التنبؤ بالتعلم الآلي أفضل من دقة DFT
الملخص

نُجري دراسة حول تأثير اختيار المتغيرات التفسيرية (regressors) وتمثيلات الجزيئات في بناء نماذج تعلم آلي سريعة لثلاث عشرة خاصية في الحالة الأرضية الإلكترونية للجزيئات العضوية. تم تقييم أداء كل توليفة من المتغيرات التفسيرية/التمثيلات/الخصائص باستخدام منحنيات التعلم، التي تُظهر أخطاء التنبؤ خارج عينة التدريب كدالة في حجم مجموعة التدريب، مع ما يصل إلى حوالي 117,000 جزيء مختلف. تأتي هياكل الجزيئات والخصائص المستخدمة في التدريب والاختبار من قاعدة بيانات QM9 [Ramakrishnan et al, Scientific Data 1, 140022 (2014)]، وتشمل عزم الازدواجية، والقطبية، وطاقة مستويي HOMO/LUMO وفجوة الطاقة، والامتداد الفراغي الإلكتروني، وطاقة الاهتزاز الصفرية، وطاقة التكوين الحراري والطاقة الحرة، وسعة الحرارة، والتردد الاهتزازي الأساسي الأعلى. تم دراسة تمثيلات مختلفة مستمدة من الأدبيات (مصفوفة كولوم، حقيبة الروابط، BAML وECFP4، والرسوم البيانية الجزيئية (MG))، فضلاً عن نسخ جديدة مبنية على التوزيعات، تشمل التوزيعات التكرارية للمسافات (HD)، والزوايا (HDA/MARAD)، والزوايا المزدوجة (HDAD). تشمل النماذج التفسيرية نماذج خطية (انحدار بياتي شرعي (BR) وانحدار خطي مع تنظيم مرن (EN))، وغابة عشوائية (RF)، وانحدار شرطي نواة (KRR)، بالإضافة إلى نوعين من الشبكات العصبية، وهما التحويلات الرسومية (GC) والشبكات الرسومية المُحكمة (GG). نقدم أدلة عددية تشير إلى أن تنبؤات نماذج التعلم الآلي تختلف عن نتائج نظرية دالة الكثافة الهجينة (DFT) أقل من اختلاف نظرية DFT عن النتائج التجريبية في جميع الخصائص. علاوةً على ذلك، تُظهر أخطاء التنبؤ خارج العينة مقارنةً بالمرجعية الهجينة DFT مستوى يعادل، أو قريبًا من، الدقة الكيميائية. تشير نتائجنا إلى إمكانية أن تكون نماذج التعلم الآلي أكثر دقة من نظرية DFT الهجينة إذا كانت بيانات كمية مبنية على الترابط الإلكتروني الصريح (أو بيانات تجريبية) متاحة.