التدريب المسبق لتمثيلات البروتينات التسلسلية ثنائية الاتجاه مع معلومات البنية

لسد الفجوة المتزايدة بسرعة بين عدد الجزيئات البروتينية غير المصنفة والمصنفة، اعتمدت عدة دراسات التعلم شبه المشرف على نمذجة الجزيئات البروتينية. في هذه الدراسات، تم تدريب النماذج مسبقًا باستخدام كمية كبيرة من البيانات غير المصنفة، وتم نقل التمثيلات إلى مهام مختلفة لاحقة. تعتمد معظم طرق التدريب المسبق فقط على نمذجة اللغة، وغالبًا ما تظهر أداءً محدودًا. في هذا البحث، نقدم مخطط تدريب مسبق جديد يُسمى PLUS، وهو اختصار لـ "تمثيلات الجزيئات البروتينية المستفادة من المعلومات البنيوية" (Protein sequence representations Learned Using Structural information). يتكون PLUS من نمذجة اللغة المقنّعة ومهمة تدريب مسبق خاصة بالبروتينات تكملها، وهي التنبؤ بالعائلة نفسها. يمكن استخدام PLUS لتدريب مجموعة متنوعة من هياكل النماذج. في هذا العمل، نستخدم PLUS لتدريب شبكة عصبية متكررة ثنائية الاتجاه ونشير إلى النموذج الناتج باسم PLUS-RNN. تظهر نتائج تجاربنا أن PLUS-RNN يتفوق على النماذج الأخرى ذات الحجم المماثل التي تم تدريبها مسبقًا بنمذجة اللغة فقط في ستة من سبعة مهام شائعة الاستخدام في بيولوجيا البروتينات. بالإضافة إلى ذلك، نقدم نتائج من تحليلات التفسير النوعي لدينا لتوضيح قوة PLUS-RNN. يوفر PLUS طريقة جديدة للاستفادة من العلاقات التطورية بين الجزيئات البروتينية غير المصنفة ويُطبق بشكل واسع عبر مجموعة متنوعة من مهام بيولوجيا البروتينات. نتوقع أن الفجوة بين عدد الجزيئات البروتينية غير المصنفة والمصنفة ستستمر في النمو بمعدل أسي، وأن الطريقة المقترحة للتدريب المسبق ستلعب دورًا أكبر.