Uni-Mol: إطار عمل تعلّم تمثيل جزيئي ثلاثي الأبعاد عام

لقد اكتسب التعلم الممثّل الجزيئي (MRL) اهتمامًا كبيرًا نظرًا لدوره الحاسم في التعلّم من بيانات مراقبة محدودة، وذلك في تطبيقات مثل تصميم الأدوية. في معظم أساليب MRL، تُعامل الجزيئات كرموز تسلسلية أحادية البعد (1D) أو كرسوم بيانية ثنائية الأبعاد (2D) تعبر عن البنية الهيكلية، مما يحد من قدرتها على تضمين المعلومات ثلاثية الأبعاد (3D) للوظائف اللاحقة، وبخاصة يجعل من الصعب جدًا التنبؤ بالهندسة ثلاثية الأبعاد أو إنشاؤها. ولهذا، نُقدّم Uni-Mol، وهي إطار عمل موحد للتعلم الممثّل الجزيئي يُوسّع بشكل كبير قدرة التمثيل ونطاق التطبيق للأساليب الحالية. يتكون Uni-Mol من نموذجين يشتركان في بنية مُحَوِّل متماثل (SE(3)-equivariant transformer): نموذج تدريب مسبق جزيئي تم تدريبه على 209 مليون تشكيل جزيئي (conformation)، ونموذج تدريب مسبق للحفرة (pocket) تم تدريبه على بيانات مرشحة لحفر البروتينات تُقدّر بـ 3 ملايين نقطة. يستخدم النموذجان بشكل منفصل في المهام المختلفة، ويُدمجان معًا عند استخدامهما في المهام المتعلقة بالارتباط بين البروتين والليغند. وبفضل دمج المعلومات ثلاثية الأبعاد بشكل مناسب، تتفوّق Uni-Mol على أحدث النماذج (SOTA) في 14 من أصل 15 مهمة تنبؤ بخصائص الجزيئات. علاوةً على ذلك، تُظهر Uni-Mol أداءً متميزًا في المهام الفضائية ثلاثية الأبعاد، مثل التنبؤ بوضع الارتباط بين البروتين والليغند، وإنشاء التشكيلات الجزيئية. وأخيرًا، نُظهر أن Uni-Mol يمكن تطبيقها بنجاح على مهام ذات بيانات قليلة (few-shot)، مثل التنبؤ بقابلية الحفرة للعلاج الدوائي. سيتم إتاحة النموذج والبيانات للجمهور عبر الرابط التالي: https://github.com/dptech-corp/Uni-Mol.