ChemRL-GEM: التعلم المُمَثَّل للجزيئات المُعزَّز بالهندسة لتنبؤ الخصائص

يُعد التمثيل الفعّال للجزيئات أمرًا بالغ الأهمية لتسهيل تنبؤ خصائص الجزيئات، وهو مهمة أساسية في صناعتي الأدوية والمواد. وقد أظهرت التطورات الحديثة في الشبكات العصبية الرسومية (GNNs) إمكانات كبيرة في تطبيق هذه الشبكات على تعلم تمثيل الجزيئات. علاوةً على ذلك، أظهرت بعض الدراسات الحديثة نجاحًا في تطبيق مناهج التعلم ذاتي التدريب (self-supervised learning) لتدريب مُسبق للشبكات العصبية الرسومية، بهدف التغلب على مشكلة نقص الجزيئات المُعلّمة. ومع ذلك، فإن الشبكات العصبية الرسومية الحالية واستراتيجيات التدريب المسبق تُعامل عادةً الجزيئات كبيانات رسومية توافقيّة دون الاستفادة الكاملة من معلومات البنية ثلاثية الأبعاد (3D) للجزيئات. في المقابل، تُعد البنية ثلاثية الأبعاد للجزيء، المعروفة باسم البنية الجزيئية، أحد العوامل الحاسمة في تحديد الخصائص الفيزيائية والكيميائية والبيولوجية للجزيء. ولذلك، نقترح منهجًا جديدًا لتعلم التمثيل الجزيئي المُعزّز بالهندسة (GEM) ضمن إطار التمثيل الكيميائي (ChemRL). أولاً، نصمم معمارية GNN تعتمد على البنية الهندسية، والتي تُنمذج في آنٍ واحد الذرات، والروابط، وزوايا الروابط في الجزيء. وعلى وجه التحديد، قمنا بتصميم رسمين ثنائيين للجزيء: الأول يُشفر علاقات الذرات والروابط؛ والثاني يُشفر علاقات زوايا الروابط. علاوةً على ذلك، وباستنادًا إلى المعمارية المُصممة، نقترح عدة استراتيجيات جديدة للتعلم ذاتي التدريب على المستوى الهندسي، بهدف استخلاص المعرفة المكانية من خلال استغلال الهياكل ثلاثية الأبعاد المحلية والعالمية للجزيء. وعند مقارنة ChemRL-GEM مع مجموعة متنوعة من النماذج الرائدة (SOTA) على مجموعات بيانات جزيئية مختلفة، أظهرت النتائج أن ChemRL-GEM تتفوق بشكل ملحوظ على جميع النماذج المُقارنة في مهام الانحدار والتصنيف. على سبيل المثال، أظهرت النتائج التجريبية تحسنًا إجماليًا بنسبة 8.8% مقارنةً بالنماذج الرائدة في مهام الانحدار، مما يؤكد التفوق الذي يحققه المنهج المقترح.