هندسة تعلم عميقة متعددة المدخلات تعتمد على الانتباه لتنبؤ النشاط البيولوجي: تطبيق في مثبطات EGFR

اكتسبت التعلم الآلي والتعلم العميق شعبية كبيرة وحققت نجاحًا هائلًا في اكتشاف الأدوية خلال العقود الأخيرة. تاريخيًا، تم تدريب نماذج التعلم الآلي والتعلم العميق على بيانات هيكلية أو خصائص كيميائية بشكل منفصل. في هذه الدراسة، اقترحنا بنية يتم فيها تدريب النوعين من البيانات معًا لتحسين الأداء العام. بالاعتماد على الهيكل الجزيئي المُعرَّف بتنسيق SMILES (التمثيل البسيط للإدخال الذاتي للجزيء) وتصنيفهم، قمنا بإنشاء مصفوفة الخصائص المستندة إلى SMILES والموصفات الجزيئية. تم تدريب هذه البيانات على نموذج تعلم عميق تم دمجه أيضًا مع آلية الانتباه (Attention) لتسهيل التدريب والتفسير. أظهرت التجارب أن نموذجنا يمكن أن يحسن أداء التنبؤ مقارنة بالنماذج المرجعية. حيث حققت بنيتنا أقصى قيمة لمتوسط الارتباط المترافق (MCC) بلغت 0.58 ومعدل الدقة تحت المنحنى (AUC) بلغ 90% عند التحقق المتقاطع على مجموعة بيانات مثبطات EGFR، مما جعلها تتفوق على النموذج المرجعي. كما تمكنا من دمج آلية الانتباه بنجاح في نموذجنا، مما ساعد في فهم مساهمة الهياكل الكيميائية في النشاط البيولوجي.