Molecule3D: معيار لتنبؤ الهندسة ثلاثية الأبعاد من الرسوم البيانية الجزيئية

تظهر الشبكات العصبية الرسومية كطرق واعدة لنمذجة الرسوم البيانية الجزيئية، حيث تمثل العقد والحواف الذرات والروابط الكيميائية على التوالي. تشير الدراسات الحديثة إلى أن توفر الهندسة الجزيئية ثلاثية الأبعاد، مثل أطوال الروابط والزوايا، يمكن أن يجعل مهام التنبؤ بالخصائص الجزيئية أكثر دقة. ومع ذلك، فإن حساب الهندسة الجزيئية ثلاثية الأبعاد يتطلب حسابات كمية تكون باهظة الحساب. على سبيل المثال، يستغرق حساب الهندسة ثلاثية الأبعاد بدقة لموليكولا صغيرا ساعات من وقت الحساب باستخدام نظرية الوظيفة الكثافة (DFT). هنا، نقترح استخدام طرق التعلم الآلي للتنبؤ بهندسة الأرضي ثلاثية الأبعاد من الرسوم البيانية الجزيئية. لتحقيق هذا الهدف، قمنا بتطوير معيار معروف باسم Molecule3D يشمل مجموعة بيانات تحتوي على هندسة الأرضي الدقيقة لنحو 4 ملايين جزيء مستخرجة من DFT. كما نوفر مجموعة من أدوات البرمجيات لمعالجة البيانات وتقسيمها وتدريبها وتقييمها وغيرها. بشكل خاص، نقترح تقييم الخطأ والصلاحية للهندسة المتوقعة باستخدام أربع مقاييس. قدمنا تنفيذاً لطريقتين أساسيتين إما للتنبؤ بالمسافة الثنائية بين الذرات أو إحداثيات الذرات في الفضاء ثلاثي الأبعاد. تظهر النتائج التجريبية أن طريقتنا يمكن أن تحقق دقة تنبؤ مقاربة لتلك التي يتم الحصول عليها من خلال إنشاء الهندسة ثلاثية الأبعاد باستخدام RDKit ولكن بتكلفة حاسوبية أقل بكثير. يمكن الحصول على Molecule3D كوحدة ضمن مكتبة البرمجيات MoleculeX (https://github.com/divelab/MoleculeX).