HyperAIHyperAI
منذ 18 أيام

PS4: مجموعة بيانات من الجيل التالي للتنبؤ ببنية الثانوية للسلاسل البروتينية الفردية

{Omar Peracha}
الملخص

تنبؤ هيكل البروتين الثانوي يُعد مشكلة فرعية من مشكلات طي البروتين. وبالتالي، فإن خوارزمية خفيفة الوزن قادرة على التنبؤ بدقة بالهيكل الثانوي من خلال تسلسل وحدات التراكيب البروتينية فقط يمكن أن توفر مدخلًا مفيدًا لتنبؤ الهيكل الثلاثي، مما يقلل من الاعتماد على مصفوفات التسلسل المتماثل (MSA) التي تُستخدم عادةً في النماذج الأفضل أداءً حاليًا. وبالمقابل، يمكن أن يُسهم ذلك في تطوير خوارزميات طي البروتين التي تُظهر أداءً أفضل مع البروتينات "المنفصلة" (orphan proteins)، وتصبح أكثر إمكانية للتطبيق في الأوساط البحثية والصناعية نظرًا لتقليل الموارد الحاسوبية المطلوبة للتشغيل. لكن للأسف، تظل المجموعات المتاحة حاليًا للتنبؤ بالهيكل الثانوي صغيرة الحجم، مما يشكل عقبة تُبطئ من وتيرة التقدم في هذا المجال. علاوةً على ذلك، غالبًا ما لا يتم تحديد سلاسل البروتين في هذه المجموعات، مما يعيق قدرة الباحثين على استخدام المعرفة الخارجية بالمناطق (domain knowledge) عند تطوير خوارزميات جديدة.نقدّم PS4، وهي مجموعة بيانات مكوّنة من 18,731 سلسلة بروتينية غير متكررة، مع تسمياتها المقابلة للهيكل الثانوي Q8. يتم تحديد كل سلسلة باستخدام رمز PDB الخاص بها، كما أن المجموعة غير متكررة مقارنةً بال datasets الأخرى الشائعة للتنبؤ بالهيكل الثانوي في الأدبيات العلمية. قمنا بدراسات تحليلية (ablation studies) من خلال تدريب خوارزميات التنبؤ بالهيكل الثانوي على مجموعة التدريب PS4، وتمكّنا من تحقيق أفضل أداء ممكن (state-of-the-art) في دقة Q8 وQ3 على مجموعة الاختبار CB513 في ظروف "الانطلاق الصفرية" (zero-shot)، دون الحاجة إلى التدريب المخصص (fine-tuning) الإضافي. علاوةً على ذلك، نوفر أداة برمجية للمجتمع العلمي لتشغيل خوارزميات التقييم، وتدريب النماذج من الصفر، وإضافة عينات جديدة إلى المجموعة.جميع الشفرات والبيانات الضرورية لإعادة إنتاج نتائجنا وإجراء استنتاجات جديدة متاحة عبر الرابط التالي: https://github.com/omarperacha/ps4-dataset

PS4: مجموعة بيانات من الجيل التالي للتنبؤ ببنية الثانوية للسلاسل البروتينية الفردية | أحدث الأوراق البحثية | HyperAI