HyperAIHyperAI
منذ 2 أشهر

تدريب جزيئي ثنائي المنظور

Jinhua Zhu; Yingce Xia; Tao Qin; Wengang Zhou; Houqiang Li; Tie-Yan Liu
تدريب جزيئي ثنائي المنظور
الملخص

تم إلهام التدريب المسبق من نجاحه في معالجة اللغة الطبيعية ورؤية الحاسوب، مما جذب اهتماماً كبيراً في مجالات الكيمياء المعلوماتية والبيولوجيا المعلوماتية، خاصة للمهام القائمة على الجزيئات. يمكن تمثيل الجزيء إما برسوم بيانية (حيث تتصل الذرات بالروابط) أو بسلسلة SMILES (حيث يتم تطبيق البحث العمقي على الرسم البياني الجزيئي بموجب قواعد محددة). تستخدم الأعمال السابقة في التدريب المسبق للجزيئات تمثيلات الرسوم البيانية فقط أو سلاسل SMILES فقط. في هذا العمل، نقترح الاستفادة من كلا النوعين من التمثيلات وتصميم خوارزمية تدريب مسبق جديدة، وهي التدريب المسبق للجزيء من وجهتي نظر (اختصارًا: DMP)، والتي يمكنها دمج قوى كل نوع من أنواع تمثيلات الجزيء بكفاءة. يتكون نموذج DMP من فرعين: فرع Transformer يأخذ سلسلة SMILES للجزيء كمدخل، وفرع GNN يأخذ الرسم البياني الجزيئي كمدخل. يتضمن تدريب DMP ثلاث مهام: (1) التنبؤ بالرموز المخفية في سلسلة SMILES بواسطة فرع Transformer، (2) التنبؤ بالذرات المخفية في الرسم البياني الجزيئي بواسطة فرع GNN، و(3) تعظيم الاتساق بين التمثيلين عالي المستوى اللذين يخرجهما فرعي Transformer وGNN بشكل منفصل. بعد التدريب المسبق، يمكن استخدام فرع Transformer (والذي يُنصح به حسب النتائج التجريبية)، أو فرع GNN، أو كليهما للمهام اللاحقة. تم اختبار DMP على تسعة مهام لتنبؤ خصائص الجزيء وأظهر أداءً رائداً في سبعة منها. بالإضافة إلى ذلك، تم اختبار DMP على ثلاث مهام لإعادة التركيب العكسي وأظهر نتائجًا رائدة فيها أيضًا.

تدريب جزيئي ثنائي المنظور | أحدث الأوراق البحثية | HyperAI