HyperAIHyperAI

Command Palette

Search for a command to run...

في إطار إعادة تشكيل القدرة التنبؤية للتجمعات البروتينية غير المنظمة، أصدرت NVIDIA وMIT وجامعة أكسفورد وجامعة كوبنهاجن وPeptone وغيرها نماذج توليدية ومعايير جديدة.

Featured Image

في تاريخ علم الأحياء البنيوي، كان مبدأ "البنية تحدد الوظيفة" يُعتبر قانونًا أساسيًا لا يتزعزع. وقد عزز كلٌّ من التركيب الحلزوني الكلاسيكي للأنسولين والتركيب الرباعي للهيموغلوبين الإجماعَ على أن البروتينات يجب أن تمتلك بنيةً ثلاثية الأبعاد مستقرةً لأداء وظائفها البيولوجية.

لكن،اكتشاف البروتينات المضطربة جوهريًا (IDPs) ومناطقها المضطربة جوهريًا (IDRs)هذا الفهم التقليدي يُعاد تشكيله باستمرار. فهي لا تُشكل هياكل ثابتة في ظل الظروف الفسيولوجية، بل تُشارك بعمق في عمليات جوهرية مثل نقل الإشارات وتنظيم نسخ الجينات، وترتبط ارتباطًا وثيقًا بأمراض بشرية رئيسية مثل السرطان والأمراض العصبية التنكسية.

كشفت أبحاث علم الأحياء الحاسوبي أيضًا أن بقايا الأحماض الأمينية 30% تقريبًا في بروتيوم حقيقيات النوى في حالة اضطراب. هذا يعني أن الاضطراب ليس "غير طبيعي"، بل هو مكون طبيعي في الأنظمة الحية. ومع ذلك،الطبيعة الديناميكية للغاية للبروتينات غير المنظمة تجعل من الصعب التقاطها بشكل مستقر باستخدام التقنيات التجريبية التقليدية، كما تجعل من الصعب محاكاة توزيعها التكويني بدقة باستخدام الأساليب الحسابية التقليدية.لقد أصبح هذا بمثابة عنق زجاجة تكنولوجي طويل الأمد في هذا المجال.

ولمعالجة هذا التحدي، اقترح فريق مشترك مكون من شركة Peptone، وهي شركة مقرها المملكة المتحدة تعمل على تطوير تكنولوجيا تحليل البروتين، وجامعة كوبنهاجن، وشركة NVIDIA، وجامعة أكسفورد، ومعهد ماساتشوستس للتكنولوجيا، وجامعة ديوك، وجهات أخرى، اكتشافين رئيسيين.الأول هو إطار تقييم النظام PeptoneBench.يدمج هذا الإطار بيانات تجريبية متعددة المصادر مثل SAXS و NMR و RDC و PRE، ويجمع بين الأساليب الإحصائية مثل إعادة ترجيح الحد الأقصى للإنتروبيا لتحقيق مقارنة كمية صارمة بين الملاحظات التجريبية والتنبؤات النظرية.الثاني هو النموذج التوليدي PepTron.يعمل التدريب على مجموعة بيانات IDR الاصطناعية الموسعة على تعزيز القدرة على نمذجة المناطق غير المنظمة بشكل خاص، مما يتيح لها التقاط التنوع التكويني للبروتينات غير المنظمة بشكل أفضل.

استخدم فريق البحث برنامج PeptoneBench لمقارنة PepTron بشكل منهجي مع أدوات التنبؤ الشائعة مثل AlphaFold2 وBoltz2 وBioEmu. أظهرت النتائج أن PepTron أظهر درجة عالية من الاتساق مع النتائج التجريبية في التنبؤ بالمناطق المنظمة وغير المنظمة، محققًا أداءً متطورًا (SOTA). بناءً على هذه التطورات، بدأ يظهر إطار عمل أكثر دقة وواقعية بيولوجيًا للتنبؤ بهياكل البروتينات باستخدام "مجموعة التكوين"، مما يُحسّن بشكل كبير فهمنا الشامل للبروتينات عبر كامل طيفها المنظم وغير المنظم.

وقد تم نشر نتائج البحث ذات الصلة، بعنوان "تطوير تنبؤات مجموعة البروتين عبر استمرارية النظام والاضطراب"، كنسخة أولية على bioRxiv.

عنوان الورقة:
https://www.biorxiv.org/content/10.1101/2025.10.18.680935v1
قم بمتابعة حسابنا الرسمي على WeChat وقم بالرد بـ "PepTron" في الخلفية للحصول على ملف PDF كامل.

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://hyper.ai/papers

البناء المنهجي لـ PeptoneBench ومجموعات البيانات التجريبية متعددة المصادر

تُعد قواعد بيانات البروتين (PDBs) الموارد العامة الأكثر جوهرية وأهمية في علم الأحياء البنيوي، ولكن هناك فجوات بنيوية كبيرة في تغطيتها للبروتينات المضطربة جوهريًا (IDPs) ومناطقها المضطربة (IDRs).تم وضع علامة على حوالي 3% فقط على أنها غير مرتبة.ومع ذلك، في البروتين البشري، تصل نسبة هذه المناطق غير المنظمة إلى 20–30%.

كما هو موضح في الشكل أدناه، فإن هذا التحيز المنهجي يدفع معظم نماذج التنبؤ الهيكلي إلى "تفضيل" التكوينات المستقرة بشكل طبيعي، مما يحد من قدرتها على التعلم من الحالات الديناميكية والفوضوية على المدى الطويل. وللتعويض عن هذا النقص،وقد قدم الباحثون قواعد بيانات تكميلية مثل IDRome، والتي تحتوي على نسبة غير مرتبة من حوالي 771 TP3T.يُمكن أن تُكمّل قاعدة بيانات البروتين (PDB) من حيث التوزيع الإحصائي. ومع ذلك، تفتقر هذه القاعدة إلى بيانات هيكلية مُحللة في تجارب واقعية، مما يُصعّب استخدامها كمعيار مباشر للنمذجة والتقييم، ولا تزال قيمتها التطبيقية محدودة للغاية.

توزيع اضطراب البروتين المتوقع في مجموعات بيانات PDB والبروتيوم البشري وIDRome

للتغلب على الاختناقات في البيانات المذكورة أعلاهالخطوة الأولى هي إنشاء مؤشرات كمية وقابلة للمقارنة للاضطراب.تستخدم هذه الدراسة متوسط درجة G للبروتينات كمقياس أساسي، بقيم تتراوح من 0 (مرتبة تمامًا) إلى 1 (فوضوية تمامًا). حُسبت هذه الدرجة بناءً على بيانات التحول الكيميائي الثانوي (CS) للرنين المغناطيسي النووي، وهي تعكس بدقة ميل تكوين بنية ثانوية محلية. بالنسبة للبروتينات التي تفتقر إلى بيانات التحول الكيميائي الثانوي التجريبية، استخدم فريق البحث نموذج التعلم الآلي ADOPT2 المُدرّب على TriZOD للتنبؤ بدرجة G، محققين بذلك قياسًا كميًا موحدًا لكامل طيف الترتيب والاضطراب.
وبناءً على ذلك، أشار الفريق أيضًا إلى أن الاعتماد فقط على البيانات البنيوية من قواعد بيانات البروتين لا يمكنه تقييم جودة مجموعات التكوين بشكل موضوعي.لذلك، من الضروري إنشاء مجموعة بيانات تجريبية تغطي النطاق الكامل المرتب وغير المرتب.

لتحقيق هذه الغاية، وكما هو موضح في الجدول أدناه، أنشأ الباحثون ثلاثة مصادر بيانات متكاملة: PeptoneDB-CS (التحولات الكيميائية للرنين المغناطيسي النووي المشتقة من BMRB)، وPeptoneDB-SAXS (أطياف SAXS من SASBDB)، وPeptoneDB-Integrative (مجموعة بيانات تعريفية مخصصة تدمج بيانات تجريبية متعامدة متعددة). تتميز هذه الأنواع الثلاثة من البيانات بهياكل مختلفة ومعلومات متكاملة: يكشف CS عن الهياكل المحلية، ويعكس SAXS التكوين العام، ويدعم Integrative التحقق المتبادل.

مجموعة بيانات البروتين التي تم إنشاؤها في الدراسة


وبناء على هذه البيانات كما هو موضح بالشكل أدناه.قام الباحثون بتطوير إطار تقييم PeptoneBench لقياس الاتساق بين مجموعة التكوين المتوقعة والبيانات التجريبية.تشمل العملية برمتها: توحيد معايير مجموعة التكوين والمعالجة المسبقة؛ وربط البنية المتوقعة بالملاحظات المماثلة للتجارب باستخدام نموذج متقدم؛ وتقييم الاتساق بناءً على خطأ التربيع الجذري المتوسط (RMSE) المُعَيَّر، مع مراعاة أوجه عدم اليقين من كلٍّ من النموذج والتجارب طوال العملية. تُعرَض النتائج النهائية على شكل رسم بياني لدرجات خطأ التربيع الجذري المتوسط (RMSE-G)، وتُقدَّر الأخطاء باستخدام تنعيم Lowes والتمهيد، ثم تُركَّب في درجة PeptoneBench التجميعية، لتشكل معيارًا كميًا لمقارنة أداء الأدوات المختلفة مباشرةً.

سير عمل PeptoneBench

يجدر التأكيد على أن بعض المجموعات الأولية من التكوينات ذات متوسط خطأ تربيعي متوسط مرتفع قد تكون أقرب إلى التوزيع التجريبي بعد إعادة ترجيحها باستخدام أقصى إنتروبيا. لتجنب الحكم الخاطئ على "الأوزان غير الصحيحة" على أنها "تكوينات مفقودة"،يقدم PeptoneBench أيضًا تقريرًا عن RMSE قبل وبعد إعادة الترجيح للتمييز بين تحيز العينة القابل للتصحيح والخسارة التكوينية غير القابلة للاسترداد.تعتبر هذه الاستراتيجية حاسمة بشكل خاص بالنسبة للنازحين داخليًا، والتي هي ديناميكية للغاية وحساسة للغاية للظروف التجريبية: طالما أن النموذج التوليدي يمكن أن يغطي مساحة تكوينية غنية بما فيه الكفاية، فإنه يمكن أن يتكيف بسرعة من خلال عملية إعادة الترجيح حتى لو كانت البيئة التجريبية مختلفة، وبالتالي تحسين التطبيق العملي وموثوقية نتائج التنبؤ بشكل كبير.

PepTron: نموذج تكويني يوازن بين البروتينات المنظمة وغير المنظمة

نموذج PepTron المقترح هو مُولِّد تكوينات بروتينية مبني على بنية مطابقة التدفق ESMFlow. يهدف إلى تغطية كامل طيف التكوينات، من التنظيم التام إلى الاضطراب الشديد، مما يُولِّد مجموعة من التكوينات المُمكنة فيزيائيًا والمتنوعة هيكليًا.
من حيث هندسة النموذج،يعتمد PepTron على ESMFlow ويتم تنفيذه في إطار عمل NVIDIA BioNeMo لتحسين كفاءة التدريب والاستدلال.يدمج النموذج آلية الانتباه المثلثية cuEquivariance، ويدعم وظيفة مطابقة التدفق من خلال حزمة BioNeMo الفرعية Modular Co-Design. تتبع عملية التدريب أفضل ممارسات BioNeMo الموزعة، حيث تجمع بين استراتيجيات متعددة متوازية وحوسبة متعددة الدقة، مما يتيح توسعًا مستقرًا وفعالًا في بيئات متعددة وحدات معالجة الرسومات.
تجدر الإشارة إلى أن PepTron لا يعتمد على محاذاة التسلسلات المتعددة (MSA) أو أوزان ESM الخارجية خلال مرحلة الاستدلال. فهو قادر على توليد مجموعة كاملة من التوافقات بنقطة تفتيش واحدة فقط، مما يُبسط إلى حد كبير عتبة الاستخدام.
لمواجهة تحدي ندرة بيانات البنية التجريبية في المناطق غير المنظمة، أنشأ فريق البحث مجموعة بيانات بنية اصطناعية، IDRome-o، استنادًا إلى IDRome. لذلك،قاموا بتطوير IDP-o، وهي أداة لتوليد بنية البروتين تعتمد على تجميع الأجزاء والتي يمكنها توليد مجموعات معقولة فيزيائيًا من تشكيلات IDP على نطاق واسع بتكلفة منخفضة للغاية. يجمع IDP-o بين تجميع الأجزاء واستراتيجيات نمو السلسلة الهرمية لاستخراج أجزاء مكونة من ستة بقايا من قاعدة بيانات AlphaFold، والتي تحتوي على 214 مليون بنية، وبالتالي التقاط الهياكل الحلزونية المؤقتة في البروتينات غير المنظمة بشكل أكثر دقة.
تجدر الإشارة إلى أن هدف IDR-o ليس محاكاة توزيع توازن معين، بل تغطية جميع التكوينات المعقولة التي قد يأخذها التسلسل في عين الاعتبار. لذلك، يُعدّ ناتجه مناسبًا بشكل خاص لإعادة ترجيح الإنتروبيا القصوى لاحقًا، ويمكن استخدامه أيضًا كمكتبة تكوينات أولية عالية الجودة لمحاكاة ديناميكيات الجزيئات.
للتغلب على تحيز النماذج التقليدية التي تميل إلى التنبؤ بالهياكل المستقرة، كما هو موضح في الشكل أدناه،يستخدم PepTron استراتيجية تدريب هجينة تجمع بين البيانات التجريبية والبيانات الاصطناعية.أولاً، يُدرَّب النموذج مُسبقاً باستخدام البنى المُحلَّلة تجريبياً من قاعدة بيانات PDB. ثم تُضاف مجموعة مُولَّدة صناعياً من البروتينات غير المنظمة للضبط الدقيق، مما يسمح للنموذج بتعلم التوزيع المستمر للتكوينات المنظمة وغير المنظمة بشكل كامل. حتى في ظل ظروف حسابية محدودة، تُحسِّن هذه الاستراتيجية أداء النموذج التنبئي بشكل ملحوظ على مختلف البروتينات.
من حيث إجراءات التدريب المحددة،تم تقسيم البحث إلى مرحلتين:في المرحلة الأولية، بدءًا من أوزان ESMFold، يُعاد تدريب وحدة مطابقة التدفق باستخدام بيانات قاعدة بيانات البروتينات، ويُوسّع نطاق تقليص طول التسلسل إلى 512 وحدة متبقية. في مرحلة الضبط الدقيق الهجين، تُستخدم مجموعة بيانات هجينة تتكون من هياكل تجريبية من قاعدة بيانات البروتينات وبيانات IDRome-o الاصطناعية كبيانات تدريب لإجراء التحسين النهائي للنموذج. يُمكّن هذا التصميم PepTron من الوصول إلى كامل طيف الاضطرابات المنظمة، مما يُحقق نمذجة أكثر شمولاً وواقعية للفضاء التكويني الديناميكي للبروتينات.

مخطط نموذج PepTron

التحقق من صحة النموذج للتوافقات الطيفية الكاملة: مقارنة منهجية بين PepTron والطرق السائدة

استخدم فريق البحث بعد ذلك إطار عمل PeptoneBench لتقييم أداء PepTron بشكل منهجي على البيانات التجريبية، بشكل مستقل تمامًا عن مجموعة التدريب، وقارنوه بنماذج شائعة مثل ESMFold وESMFlow وAlphaFold2 وBoltz2 وBioEmu. وفي الوقت نفسه، أجرى الفريق اختبارات محددة على مجموعة بيانات PeptoneDB-Integrative، التي تركز على البروتينات المضطربة جوهريًا (IDPs)، لفحص قدرات كل نموذج على نمذجة التكوينات المضطربة بشكل شامل. وأظهرت النتائج خصائص تمايز واضحة بين النماذج.

كما هو موضح في الشكل أدناه، في مجموعة بيانات PeptoneDB-CS، يختلف أداء كل نموذج بشكل كبير مع درجة اضطراب البروتين (درجة G): ESMFold وESMFlow دقيقان في التنبؤ بالمناطق المرتبة، لكن أداءهما ينخفض بشكل كبير في المناطق غير المنظمة؛ يُظهر IDP-o نمطًا تكميليًا نموذجيًا - فكلما زادت درجة الاضطراب، كان الأداء أفضل.يحافظ PepTron على اتساق عالٍ ومستقر عبر طيف التكوين المنظم والفوضوي بأكمله.تم التحقق من صحة هذه القدرة على التوازن في مجموعة بيانات PeptoneDB-SAXS والتحليل المعاد ترجيحه اللاحق، مما يدل على أن PepTron يمكنه التقاط التنوع التكويني للبروتينات غير المنظمة بشكل فعال دون التضحية بدقة الهياكل المنظمة.

نتائج مقارنة نماذج PeptoneDB-CS/SAXS

تظهر نتائج مقارنة النماذج المتقاطعة في الشكل أدناه. على الرغم من أن AlphaFold2 وBoltz2 لا يزالان مهيمنين في التنبؤ بالبروتينات المرتبة، إلا أن أداءهما يتراجع بشكل منهجي مع ازدياد درجة الاضطراب؛ في المقابل،يظهر PepTron وBioEmu قوة أكبر عبر الطيف التكويني بأكمله، مما يجعلهما أكثر ملاءمة للتعامل مع السمات الهيكلية غير المتجانسة للغاية لـ IDPs.

نتائج مقارنة نماذج PeptoneDB-CS/SAXS

لضمان عدم تأثير التدريب على المناطق غير المنظمة على قدرتها التنبؤية للبروتينات المنظمة، أجرى فريق البحث أيضًا اختبارات إضافية على بيانات البنية المنظمة من CAMEO22 وCASP14. وأظهرت النتائج أن...يعمل PepTron بما يتماشى مع ESMFlow على المقاييس الرئيسية مثل RMSD وLDDT وTM، مما يدل على أنه لا يؤثر على دقة الهياكل المنظمة أثناء توسيع قدرات نمذجة IDR.


في مجموعة بيانات PeptoneDB-Integrative، التي تدمج مقاييس تجريبية متعددة، كما هو موضح في الشكل أدناه، يكشف أداء النموذج عن اختلافات إضافية. يُظهر IDP-o أداءً ممتازًا بشكل خاص بعد إعادة ترجيح الإنتروبيا القصوى، متفوقًا بشكل ملحوظ على النماذج الأخرى في كلٍّ من RMSE وعامل Q RDC؛ يتشابه PepTron وBioEmu في مقاييس RDC، لكن BioEmu أكثر فائدة في التنبؤ بالتحولات الكيميائية المحلية. تجدر الإشارة إلى أنه حتى في ظل ظروف غير مرجحة،يواصل IDP-o الريادة في معظم المقاييس المحلية والعالمية، مما يدل على ميزته الطبيعية في تغطية تشكيلات البروتين غير المنتظمة.

نتائج التنبؤ للنماذج المختلفة على مجموعة بيانات PeptoneDB-Integrative

وأشارت الدراسة أيضًا إلى العديد من الاختناقات الشائعة في النموذج الحالي:تفشل معظم النماذج في رصد تفضيلات الاتصال بعيدة المدى، وتُظهر درجات متفاوتة من تحيز البنية الثانوية. علاوة على ذلك، تُعاني النماذج السائدة عادةً من صعوبة وصف حالة "التسلسلات المطوية بشكل مشروط" بدقة، بينما يُظهر نموذج IDP-o تفوقًا فريدًا في هذا الصدد.

من الفوضى إلى النظام: إنجازات عالمية وفصول جديدة في أبحاث النازحين داخليًا

أصبحت البروتينات المضطربة جوهريًا (IDPs) بسرعة بمثابة حدود بحثية في علوم الحياة العالمية والصناعات الدوائية بسبب خصائصها التكوينية الديناميكية للغاية وارتباطها الوثيق بالعديد من الأمراض الرئيسية.


في الأوساط الأكاديمية، أصبحت تقنية التنبؤ بالبنية التحتية للذكاء الاصطناعي قوة رئيسية في اختراق "كلمة المرور الديناميكية" لمقدمي خدمات الهوية.طريقة AlphaFold-Metainference المقترحة من قبل جامعة كامبريدج،من خلال الجمع بين خرائط خطأ محاذاة AlphaFold مع محاكاة الديناميكيات الجزيئية، يتغلب هذا النهج على قيود AlphaFold التقليدية، التي تتنبأ بشكل أساسي بالهياكل المستقرة، وتبني بنجاح IDPs ومجموعات الهياكل التي تحتوي على مناطق غير منظمة، مما يوفر مسارًا جديدًا لفهم تعدد أشكالها.
عنوان الورقة:

التنبؤ بـ AlphaFold للمجموعات الهيكلية للبروتينات غير المنتظمة
رابط الورقة:https://www.nature.com/articles/s41467-025-56572-9

كما قام فريق جامعة كوبنهاجن بدمج AlphaFold مع نموذج لغة البروتين.لقد مكّن من التنبؤ على نطاق واسع بتكوين البروتينات البشرية المضطربة.ويوضح هذا مدى عالمية تكنولوجيا الذكاء الاصطناعي وقابليتها للتوسع في أبحاث التخطيط الاستراتيجي للنمو.
عنوان الورقة:

المجموعات التكوينية للبروتينات البشرية المضطربة جوهريًا
رابط الورقة:https://www.nature.com/articles/s41586-023-07004-5

إن قدرة النتائج الأكاديمية على إحداث تغيير حقيقي في علاج الأمراض تعتمد على قدرة الصناعة على ترجمة التكنولوجيا إلى تطبيقات عملية. التعاون بين شركة التكنولوجيا الحيوية البريطانية "بيبتون" وشركة الأدوية الألمانية "إيفوتيك"...ويوضح هذا مسارًا مجديًا لتوسيع نطاق أبحاث النازحين داخليًا لتشمل تطوير الأدوية.باستخدام منصة مطياف الكتلة فائق السرعة لتبادل الهيدروجين والديوتيريوم (HDX-MS) من Peptone، يمكن للباحثين تتبع التغيرات الديناميكية للبروتينات المضطربة آنيًا، وتحديد مواقع الارتباط التي يصعب تحديدها باستخدام طرق التحديد الهيكلي التقليدية. وبفضل مزايا Evotec في التحقق من صحة الأهداف، وفحص الأدوية، والتقدم السريري، يُمكن تحويل هدف IDP، الذي يصعب وصفه دوائيًا، إلى جزيء مرشح ذي إمكانات دوائية.

لا تعكس هذه السلسلة من التطورات اتجاه نموذج PepTron "الذي يغطي كامل طيف البنى المنظمة والفوضوية" فحسب، بل تشير أيضًا إلى أن البروتينات الفوضوية، التي كانت تُعتبر في السابق بعيدة المنال، أصبحت تدريجيًا أهدافًا رئيسية في الطب الدقيق والمستحضرات الصيدلانية الحيوية. مع استمرار التقدم التكنولوجي وتعميق التعاون بين شركات الأدوية، قد توفر البنى الجزيئية المبرمجة إطارًا جديدًا كليًا لفهم مسارات التدخل في علاج الأمراض مستقبلًا.

روابط مرجعية:
1.https://www.vbdata.cn/intelDetail/717834
2.https://c.m.163.com/news/a/JDIR2LQJ0552ZPM2.html
3.https://www.vbdata.cn/intelDetail/580634