Prot42: عائلة جديدة من نماذج اللغة البروتينية لتصميم مُلَازِمِات البروتين المستهدفة

فتح الجيل القادم من التكنولوجيا الحيوية والابتكار العلاجي يتطلب التغلب على التعقيد الداخلي وشدة استهلاك الموارد للطرق التقليدية لتصميم البروتينات. ت依赖最近基于生成式人工智能 (GenAI) 的计算技术通常依赖于目标蛋白质的三维结构和特定结合位点的可用性来生成高亲和力结合剂,这些限制在如 AlphaProteo 和 RFdiffusion 等模型中表现得尤为明显。在这项工作中,我们探讨了使用蛋白质语言模型 (pLMs) 生成高亲和力结合剂的方法。我们介绍了 Prot42,这是一种新型的蛋白质语言模型 (pLMs) 家族,预先训练了大量的未标记蛋白质序列。通过捕捉深层次的进化、结构和功能见解,Prot42 采用了一种受自然语言处理领域突破启发的先进自回归、仅解码器架构,从而极大地扩展了基于语言的计算蛋白质设计的能力。值得注意的是,我们的模型可以处理长达 8,192 个氨基酸的序列,显著超越了标准限制,并能够精确建模大型蛋白质和复杂的多域序列。展示强大的实际应用能力,Prot42 在生成高亲和力蛋白质结合剂和序列特异性 DNA 结合蛋白方面表现出色。我们的创新模型已公开提供,为科学界提供了一个高效且精确的计算工具包,用于快速蛋白质工程。为了更好地符合阿拉伯语表达习惯并保持专业性,以下是优化后的翻译:فتح الجيل التالي من التكنولوجيا الحيوية والابتكار العلاجي يتطلب التغلب على التعقيد الداخلي وشدة استهلاك الموارد للطرق التقليدية لتصميم البروتينات. تقنيات الحوسبة الحديثة التي تعتمد على الذكاء الاصطناعي الجيني (GenAI) غالبًا ما تعتمد على توفر بنية البروتين المستهدف ثلاثية الأبعاد ومواقع الارتباط الخاصة به لإنتاج ملزمة ذات قدرة ترابط عالية، وهي قيود تظهر في نماذج مثل AlphaProteo وRFdiffusion. في هذا العمل، نستكشف استخدام نماذج لغة البروتين (pLMs) لإنتاج ملزمة ذات قدرة ترابط عالية. نقدم Prot42، وهو عائلة جديدة من نماذج لغة البروتين (pLMs) تم تدريبها مسبقًا على كميات هائلة من سلاسل البروتين غير المصنفة. من خلال التقاط رؤى عميقة حول التطور والبنية والوظيفة عبر هيكل متقدم ذاتيًا يعتمد فقط على المفكك والمُلهم من الاختراقات في معالجة اللغة الطبيعية، يوسع Prot42 بشكل كبير قدرات تصميم البروتينات الحاسوبية القائمة على اللغة فقط. بشكل ملحوظ، يمكن لأamodelsنا التعامل مع سلاسل تحتوي على ما يصل إلى 8,192 حمض أميني، مما يتجاوز بكثير القيود القياسية ويتيح النمذجة الدقيقة للبروتينات الكبيرة والسلاسل المتعددة المجالات المعقدة. بفضل تطبيقاتها العملية القوية، أثبتت Prot42 كفاءتها في إنتاج ملزمة بروتينية ذات قدرة ترابط عالية وفي إنتاج بروتينات مرتبطة بالـ DNA ذات خصوصية تسلسل. نماذجنا الابتكارية متاحة للعامة، وتقدم للمجتمع العلمي أدوات حاسوبية فعالة ودقيقة لتصميم البروتين السريع.请注意,“RFdiffusion”、“AlphaProteo” 和 “Prot42” 这些专有名词在阿拉伯语中通常保留其原始形式。