DistilProtBert: نموذج لغوي بروتيني تم تقطيعه لتمييز البروتينات الحقيقية عن نسخها العشوائية المُعاد ترتيبها
في الآونة الأخيرة، تم تطبيق نماذج التعلم العميق، التي تم تطويرها في البداية في مجال معالجة اللغة الطبيعية (NLP)، بنجاح على تحليل تسلسلات البروتينات. وتشكل هذه النماذج عيبًا رئيسيًا يتمثل في حجمها الكبير من حيث عدد المعلمات التي يجب تكييفها، والموارد الحاسوبية الكبيرة التي تتطلبها. في الآونة الأخيرة، أصبحت النماذج "المُستخلصة" التي تعتمد على مفهوم الشبكات المُعلِّم والطالب شائعة جدًا في مجال معالجة اللغة الطبيعية. وفي هذا العمل، قمنا بتكيف هذا المفهوم مع مشكلة تحليل تسلسلات البروتينات، من خلال تطوير نموذج "DistilProtBert"، وهو نسخة مستخلصة من النموذج الناجح ProtBert. وباستخدام هذا النهج، تم تقليل حجم الشبكة ووقت التشغيل بنسبة 50%، كما تم تقليل الموارد الحاسوبية اللازمة لعملية التدريب المسبق بنسبة 98% مقارنةً بنموذج ProtBert. وباستخدام مهام منشورة مسبقًا، أظهرنا أن أداء النموذج المستخلص يقترب من أداء النموذج الكامل. ثم قمنا بفحص قدرة DistilProtBert على التمييز بين التسلسلات البروتينية الحقيقية والمتسلسلات العشوائية. وتشكل هذه المهمة تحديًا كبيرًا عندما يُحتفظ بالتوزيع على مستوى الأحماض الأمينية الفردية (singlet)، والمزدوجة (doublet)، والثلاثية (triplet). في الواقع، تواجه الخوارزميات التقليدية للتعلم الآلي صعوبات كبيرة في أداء هذه المهمة. ونُظهر هنا أن DistilProtBert أظهر أداءً ممتازًا على النسخ المُشَوَّشة من تسلسلات البروتين البشري على مستوى الأحادية، والمزدوجة، وحتى الثلاثية، حيث بلغ مقياس AUC 0.92 و0.91 و0.87 على التوالي. وأخيرًا، نقترح أنه من خلال تحليل عدد قليل من التصنيفات الخاطئة الإيجابية (أي التسلسلات المشوَّشة التي تم تصنيفها من قبل DistilProtBert على أنها بروتينات)، قد نتمكن من تحديد بروتينات محتملة جديدة ذات طبيعة طبيعية، استنادًا إلى إعادة ترتيب عشوائي لتسلسلات الأحماض الأمينية.