HyperAIHyperAI

Command Palette

Search for a command to run...

DistilProtBert: نموذج لغوي بروتيني تم تقطيعه لتمييز البروتينات الحقيقية عن نسخها العشوائية المُعاد ترتيبها

Ron Unger Yanay Ofran Yaron Geffen

الملخص

في الآونة الأخيرة، تم تطبيق نماذج التعلم العميق، التي تم تطويرها في البداية في مجال معالجة اللغة الطبيعية (NLP)، بنجاح على تحليل تسلسلات البروتينات. وتشكل هذه النماذج عيبًا رئيسيًا يتمثل في حجمها الكبير من حيث عدد المعلمات التي يجب تكييفها، والموارد الحاسوبية الكبيرة التي تتطلبها. في الآونة الأخيرة، أصبحت النماذج "المُستخلصة" التي تعتمد على مفهوم الشبكات المُعلِّم والطالب شائعة جدًا في مجال معالجة اللغة الطبيعية. وفي هذا العمل، قمنا بتكيف هذا المفهوم مع مشكلة تحليل تسلسلات البروتينات، من خلال تطوير نموذج "DistilProtBert"، وهو نسخة مستخلصة من النموذج الناجح ProtBert. وباستخدام هذا النهج، تم تقليل حجم الشبكة ووقت التشغيل بنسبة 50%، كما تم تقليل الموارد الحاسوبية اللازمة لعملية التدريب المسبق بنسبة 98% مقارنةً بنموذج ProtBert. وباستخدام مهام منشورة مسبقًا، أظهرنا أن أداء النموذج المستخلص يقترب من أداء النموذج الكامل. ثم قمنا بفحص قدرة DistilProtBert على التمييز بين التسلسلات البروتينية الحقيقية والمتسلسلات العشوائية. وتشكل هذه المهمة تحديًا كبيرًا عندما يُحتفظ بالتوزيع على مستوى الأحماض الأمينية الفردية (singlet)، والمزدوجة (doublet)، والثلاثية (triplet). في الواقع، تواجه الخوارزميات التقليدية للتعلم الآلي صعوبات كبيرة في أداء هذه المهمة. ونُظهر هنا أن DistilProtBert أظهر أداءً ممتازًا على النسخ المُشَوَّشة من تسلسلات البروتين البشري على مستوى الأحادية، والمزدوجة، وحتى الثلاثية، حيث بلغ مقياس AUC 0.92 و0.91 و0.87 على التوالي. وأخيرًا، نقترح أنه من خلال تحليل عدد قليل من التصنيفات الخاطئة الإيجابية (أي التسلسلات المشوَّشة التي تم تصنيفها من قبل DistilProtBert على أنها بروتينات)، قد نتمكن من تحديد بروتينات محتملة جديدة ذات طبيعة طبيعية، استنادًا إلى إعادة ترتيب عشوائي لتسلسلات الأحماض الأمينية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp