تنبؤ دقيق للغاية بخصائص الكيمياء الكمية باستخدام Uni-Mol+

أحدث التطورات في التعلم العميق أحرزت تقدماً ملحوظاً في تسريع تنبؤ الخصائص الكيميائية الكمية (QC) من خلال التخلص من الحاجة إلى حسابات بنية إلكترونية مكلفة مثل نظرية الكثافة الوظيفية (DFT). ومع ذلك، فشلت الطرق السابقة التي تعتمد على تسلسلات SMILES ذات البعد الواحد أو الرسوم البيانية الجزيئية ثنائية الأبعاد في تحقيق دقة عالية، لأن الخصائص الكمية الكيميائية تعتمد بشكل رئيسي على التكوينات الثلاثية الأبعاد المتوازنة التي يتم تحسينها بواسطة طرق بنية الإلكترون، والتي تختلف جذرياً عن البيانات من النوع التسلسلي أو الرسومي. في هذه الورقة، نقترح منهجاً جديداً يُسمى Uni-Mol+ لمعالجة هذه التحديات. يبدأ Uni-Mol+ بإنشاء تكوين ثلاثي الأبعاد أولي للجزيء باستخدام طرق غير مكلفة مثل RDKit. ثم يتم تحديث هذا التكوين الأولي بشكل تكراري نحو التكوين المتوازن الناتج عن DFT باستخدام الشبكات العصبية، ويُستخدم التكوين المُتعلم لتنبؤ الخصائص الكمية الكيميائية. ولتمكين التعلم الفعّال لعملية التحديث هذه نحو التكوين المتوازن، نقدم نموذجاً أساسيّاً من نوع Transformer ذا مسارين، ونُدرّبه على مهمة تنبؤ الخصائص الكمية الكيميائية. كما صممنا منهجاً مبتكراً لتوجيه عملية تدريب النموذج. تُظهر نتائج المقارنة الواسعة أن Uni-Mol+ يُحسّن بشكل كبير دقة تنبؤ الخصائص الكمية الكيميائية في مختلف المجموعات البيانات. وقمنا بالإفصاح عن الشفرة والنماذج بشكل علني عبر الرابط التالي: \url{https://github.com/dptech-corp/Uni-Mol}.