تدريب جزيئي ثنائي المنظور

تم إلهام التدريب المسبق من نجاحه في معالجة اللغة الطبيعية ورؤية الحاسوب، مما جذب اهتماماً كبيراً في مجالات الكيمياء المعلوماتية والبيولوجيا المعلوماتية، خاصة للمهام القائمة على الجزيئات. يمكن تمثيل الجزيء إما برسوم بيانية (حيث تتصل الذرات بالروابط) أو بسلسلة SMILES (حيث يتم تطبيق البحث العمقي على الرسم البياني الجزيئي بموجب قواعد محددة). تستخدم الأعمال السابقة في التدريب المسبق للجزيئات تمثيلات الرسوم البيانية فقط أو سلاسل SMILES فقط. في هذا العمل، نقترح الاستفادة من كلا النوعين من التمثيلات وتصميم خوارزمية تدريب مسبق جديدة، وهي التدريب المسبق للجزيء من وجهتي نظر (اختصارًا: DMP)، والتي يمكنها دمج قوى كل نوع من أنواع تمثيلات الجزيء بكفاءة. يتكون نموذج DMP من فرعين: فرع Transformer يأخذ سلسلة SMILES للجزيء كمدخل، وفرع GNN يأخذ الرسم البياني الجزيئي كمدخل. يتضمن تدريب DMP ثلاث مهام: (1) التنبؤ بالرموز المخفية في سلسلة SMILES بواسطة فرع Transformer، (2) التنبؤ بالذرات المخفية في الرسم البياني الجزيئي بواسطة فرع GNN، و(3) تعظيم الاتساق بين التمثيلين عالي المستوى اللذين يخرجهما فرعي Transformer وGNN بشكل منفصل. بعد التدريب المسبق، يمكن استخدام فرع Transformer (والذي يُنصح به حسب النتائج التجريبية)، أو فرع GNN، أو كليهما للمهام اللاحقة. تم اختبار DMP على تسعة مهام لتنبؤ خصائص الجزيء وأظهر أداءً رائداً في سبعة منها. بالإضافة إلى ذلك، تم اختبار DMP على ثلاث مهام لإعادة التركيب العكسي وأظهر نتائجًا رائدة فيها أيضًا.