HyperAIHyperAI

Command Palette

Search for a command to run...

من خلال تحقيق تصميم ركائز انتقائي للغاية، يتعاون معهد ماساتشوستس للتكنولوجيا وجامعة هارفارد لاكتشاف أنماط انقسام البروتياز الجديدة باستخدام الذكاء الاصطناعي التوليدي.

Featured Image

في شبكة التفاعلات الكيميائية الحيوية المعقدة للكائنات الحية، تستطيع البروتيازات أن تقطع الروابط الببتيدية بدقة، وبالتالي تنظم سلسلة من العمليات الحيوية الأساسية، بدءًا من تخثر الدم وإصلاح الأنسجة وصولًا إلى الاستجابات المناعية وحتى تطور السرطان. غالبًا ما يؤدي خلل هذه البروتيازات مباشرةً إلى ظهور وتطور العديد من الأمراض الخطيرة. لذلك، فإن توضيح آليات عمل البروتيازات وتنظيم نشاطها بدقة لا يُعدّ مسألة جوهرية في علوم الحياة الأساسية فحسب، بل يُعدّ أيضًا إنجازًا حاسمًا لتطوير أساليب تشخيصية وعلاجية جديدة.

مفتاح تحقيق هذا الهدف،يكمن المفتاح في إيجاد ركائز الببتيد التي تكون "متطابقة" للغاية.يمكن استخدامها كمجسات جزيئية لتتبع نشاط الإنزيم، أو تصميمها كمثبطات لمنع النشاط غير الطبيعي، أو حتى العمل كـ "مفاتيح تنشيط مشروطة" في أنظمة توصيل الأدوية لتحقيق العلاج الموجه.

مع ذلك، لطالما شكّل تصميم ركائز ببتيدية تُقطع بسرعة بواسطة البروتيازات المستهدفة وتكون في الوقت نفسه انتقائية للغاية (أي لا يتعرف عليها إلا ذلك الإنزيم، متجنبةً التفاعلات المتبادلة مع بروتيازات أخرى) تحديًا كبيرًا للمجتمع العلمي. تنبع هذه المشكلة من التفاعلات الكيميائية الحيوية المعقدة بين البروتيازات والركائز: فلكي تتكيف البروتيازات مع وظائف فيزيولوجية متنوعة، طورت نطاقًا واسعًا من التخصص في القطع، ويجب أن ترتبط مواقعها النشطة بدقة بركائز ببتيدية (يبلغ طولها عادةً حوالي عشرة أحماض أمينية). حتى عند النظر فقط إلى الببتيدات الاصطناعية المكونة من 10 أحماض أمينية، باستخدام الأحماض الأمينية الطبيعية العشرين الشائعة، يمكن أن تصل تركيبات التسلسل النظرية إلى حوالي 20¹⁰ (ما يقارب 10¹³)، مما يخلق مجالًا لا نهائيًا تقريبًا للاستكشاف. ومما يزيد الأمر تعقيدًا...غالباً ما تنشأ البروتيازات ذات الوظائف المتشابهة من سلف مشترك ولها هياكل مواقع نشطة متشابهة، مما يجعلها عرضة بشكل كبير لـ "التعرف المتبادل".وهذا يجعل من الصعب بشكل خاص فحص الركائز شديدة التخصص من بين عدد هائل من الاحتمالات.

للتغلب على هذه المعضلة، بذل الباحثون محاولات عديدة. تعتمد الطرق التقليدية غالبًا على مواقع الانقسام المعروفة أو المعلومات الإنزيمية للبروتينات الطبيعية، مما يؤدي إلى انخفاض الكفاءة وصعوبة الحصول على ركائز اصطناعية مثالية. أما التصميم العقلاني القائم على المعرفة البيولوجية الكيميائية فهو عادةً معقد، وذو إنتاجية محدودة، ويستهدف في الغالب بروتيازات مفردة، مما يصعب توسيع نطاقه. في السنوات الأخيرة، ورغم أن تقنيات الفحص عالي الإنتاجية قد حسّنت الكفاءة إلى حد ما، إلا أنها لا تزال تعاني من قيود مثل تعقيد التشغيل وارتفاع التكلفة.معظم طرق التنبؤ الحسابية الحالية لا تستطيع سوى تحديد "ما إذا كان يجب القطع" ولا يمكنها فرز كفاءة القطع بدقة، وبالتالي تفشل في تلبية احتياجات البحث المتعمق في الآليات والتطبيقات الهندسية.

وفي هذا السياق،اقترح معهد ماساتشوستس للتكنولوجيا وجامعة هارفارد بشكل مشترك CleaveNet، وهو عبارة عن تدفق تصميم شامل يعتمد على الذكاء الاصطناعي.من خلال العمل بالتآزر بين النماذج التنبؤية والتوليدية، يهدف هذا النهج إلى إحداث ثورة في النموذج الحالي لتصميم ركائز البروتياز وتوفير حلول جديدة تمامًا للبحوث الأساسية ذات الصلة والتطوير الطبي الحيوي.


عنوان الورقة:
https://www.nature.com/articles/s41467-025-67226-1
تابع حسابنا الرسمي على WeChat وأجب بكلمة "CleaveNet" في الخلفية للحصول على ملف PDF كامل.

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي: 

https://hyper.ai/papers

التحقق من صحة السيناريوهات المتعددة الذي يعزز قدرة نموذج CleaveNet على التعميم، مدعومًا بمجموعات بيانات من سيناريوهات تجريبية متعددة.

في تطوير نموذج CleaveNet والتحقق من صحته، دمجت هذه الدراسة مجموعتين من البيانات تختلفان اختلافًا كبيرًا في تكوين التسلسل والأساليب التجريبية لضمان موثوقية النموذج وقدرته على التعميم.

جاءت مجموعة البيانات الأساسية التي استخدمها الباحثون من دراسة منشورة قامت بتوصيف نشاط الانقسام لمكتبة ركائز تحتوي على ما يقرب من 18500 من الببتيدات الاصطناعية العشرية ضد 18 من البروتينات المعدنية المصفوفية (MMPs) باستخدام تقنية عرض mRNA.يتوافق كل مزيج من الركيزة والبروتياز مع درجة كفاءة الانقسام المعيارية (Zₛₘ) لتحديد شدة الانقسام النسبية.

ولضمان دقة التقييم وتجنب المبالغة في التقدير بسبب تشابه التسلسل،أجرى الباحثون عملية ترشيح التماثل على مجموعة الاختبار الأولية:قام الباحثون بحساب الحد الأدنى لمسافة ليفنشتاين بين كل تسلسل اختباري وجميع التسلسلات في مجموعة التدريب، ثم أزالوا 816 تسلسلاً بمسافة أقل من 3، والتي كانت شديدة التشابه مع مجموعة التدريب. في النهاية، حصلوا على "مجموعة اختبار عرض mRNA" تحتوي على 2901 تسلسلاً غير متداخل. لم تُستخدم هذه المجموعة الفرعية في أي مرحلة من مراحل تدريب النموذج، بل خُصصت حصراً للتحقق الداخلي من الأداء.

لاختبار قدرة النموذج على التكيف بشكل مستقل عند مواجهة خلفيات بيوكيميائية مختلفة جذرياً،كما قدمت الدراسة مجموعة بيانات مستقلة تمامًا خارج نطاق التوزيع تسمى "مجموعة اختبار التألق".تحتوي هذه المجموعة من البيانات على 71 ببتيدًا اصطناعيًا بأطوال متفاوتة (7-14 حمضًا أمينيًا)، وقد تم التحقق من قدرتها على قطع سبعة بروتينات MMP مُعاد تركيبها باستخدام تجارب مخبرية تقليدية تعتمد على نقل طاقة الرنين الفلوري (FRET). تختلف هذه المجموعة من البيانات اختلافًا جوهريًا عن مجموعة البيانات الأساسية المُولَّدة باستخدام تقنية عرض mRNA من حيث توزيع طول الببتيد، وتركيب الأحماض الأمينية، والأهم من ذلك، مبادئ الكشف التجريبي. يوفر هذا التصميم المُتعمَّد معيارًا حاسمًا لتقييم قدرة نموذج CleaveNet على تجاوز ظروف تجريبية مُحدَّدة والتقاط أنماط كيميائية حيوية شاملة.

يتنبأ CleaveNet ويولد حلقات مغلقة تعاونية.

كما هو موضح في الشكل أدناه، يتكون جوهر CleaveNet من وحدتين حسابيتين متكاملتين وتعاونيتين: وحدة التنبؤ (CleaveNet Predictor) ووحدة التوليد (CleaveNet Generator).يشكلون معاً حلقة مغلقة كاملة "للتصميم والتقييم".

CleaveNet، وهي طريقة للتعلم العميق لتصميم ركائز الهضم الإنزيمي.

تهدف وحدة التنبؤ إلى حل مشكلة التقييم السريع والدقيق لنشاط الانقسام للركائز المرشحة من مساحة تسلسل ضخمة.قام الباحثون بتصميمه كنموذج انحدار متعدد المخرجات يعتمد على دالة التسلسل. وبالتحديد، يأخذ النموذج تسلسل الأحماض الأمينية كمدخل، وتتمثل مهمته الأساسية في إخراج قيمة القطع المتوقعة (Ŵₛₘ) للتسلسل لجميع البروتينات المعدنية الـ 18، وتقدير عدم اليقين (σₛₘ) لكل توقع في الوقت نفسه.

ولتحقيق قدرة تنبؤية أعلى، استخدمت هذه الدراسة استراتيجية تجميع النماذج:تم تدريب خمسة نماذج تنبؤ متطابقة بشكل مستقل على مجموعة بيانات تدريب عرض الحمض النووي الريبوزي المرسال (mRNA)، وكانت النتيجة النهائية للتنبؤ هي متوسط مخرجاتها. تم قياس عدم اليقين في التنبؤات من خلال الانحراف المعياري لهذه النتائج الخمس. علاوة على ذلك، من خلال تحديد عتبة قابلة للتعديل (Zₜ)، يمكن للنموذج بسهولة تحويل نتائج التنبؤ المستمرة إلى حكم ثنائي "مُقَطَّع" أو "غير مُقَطَّع"، مما يخدم سيناريوهات فحص مختلفة.

في بناء النموذج التنبؤي، قارنت هذه الدراسة بشكل منهجي بين بنيتين رئيسيتين في نمذجة التسلسلات: شبكات الذاكرة طويلة المدى ثنائية الاتجاه، وشبكات المحولات. تتفوق الأولى في رصد تبعيات التسلسلات، بينما تستطيع الثانية، بفضل آلية الانتباه الخاصة بها، نمذجة التفاعلات بين الأحماض الأمينية بشكل شامل، وهي حاليًا الخيار السائد لتمثيل لغة البروتين. استنادًا إلى إمكاناتها التي تم إثباتها على نطاق أوسع وبيانات أكثر تنوعًا،في النهاية، اختار الباحثون بنية Transformer كأساس لـ CleaveNet Predictor.

يهدف نموذج التوليد إلى تحقيق تصميم آلي وذكي للركائز المرشحة.قامت هذه الدراسة بتدريب نموذج توليدي قائم على المحولات التراجعية الذاتية، والذي كان قادراً على تعلم تفضيلات قطع MMP العالمية المتأصلة في مجموعة البيانات من تمثيل mRNA.يمكن لهذا النموذج توليد عدد كبير من تسلسلات الببتيد الجديدة والمعقولة دون أي شروط إدخال إضافية.

من أجل تقييم قيمة النماذج التوليدية علميًا بدلاً من مجرد إعادة إنتاج العشوائية، قام الباحثون بتطوير طريقة أساسية قوية تسمى "التحكم المستقل عن الموقع".تعتمد هذه الطريقة فقط على حساب التوزيع المستقل لكل موضع من مواضع الأحماض الأمينية في بيانات التدريب، ثم تقوم بأخذ عينات عشوائية بناءً على ذلك لتوليد التسلسلات.من خلال مقارنة التسلسلات التي تم إنشاؤها بواسطة CleaveNet مع هذا التسلسل الأساسي عبر أبعاد متعددة، يمكننا بوضوح تحديد الأنماط البيوكيميائية المعقدة التي تعلمها النموذج والتي تتجاوز الارتباطات الإحصائية البسيطة.

يتيح التعاون الوثيق بين وحدات التنبؤ والتوليد للباحثين إمكانية توليد مكتبة مرشحين متنوعة أولاً، ثم إجراء فحص افتراضي فعال ودقيق عليها، مما يوفر محركًا حسابيًا قويًا للتحقق التجريبي اللاحق.

تتيح شبكة CleaveNet تحكمًا انتقائيًا ودقيقًا.

بعد الانتهاء من بناء النموذج، أجرت هذه الدراسة تحققًا تجريبيًا متعدد المستويات ومنهجيًا لأداء CleaveNet، وأظهرت النتائج بشكل كامل القيمة المتميزة لهذه العملية من حيث دقة التنبؤ، وعقلانية التوليد، وفعالية التطبيق العملي.

أولاً،يُظهر برنامج CleaveNet Predictor قدرات تنبؤية ممتازة على كل من مجموعات الاختبار الداخلية والخارجية.في مجموعة اختبار ترشيح التماثل (مجموعة اختبار عرض mRNA) التي لم تُستخدم مطلقًا في التدريب، أظهرت النتيجة المتوقعة للنموذج (Ŵₛₘ) لـ MMP13 ارتباطًا قويًا مع النتيجة المعيارية Z المقاسة تجريبيًا (Zₛₘ) (معامل ارتباط بيرسون r = 0.80). وكان أداؤه قويًا بنفس القدر عند تحويل التنبؤات المستمرة إلى تصنيف ثنائي "مقطوع/غير مقطوع": من خلال رسم منحنيات خصائص تشغيل المستقبل (ROC) وحساب المساحة تحت المنحنى (AUC)، وجد الباحثون أن النموذج حافظ على قدرة تمييز عالية عبر عتبات قرار مختلفة، لا سيما عند عتبة القطع المقبولة عالميًا (Zₜ=2.5)، حيث بلغت قيمة AUC 0.98. وقد أُجريت اختبارات أكثر دقة باستخدام مجموعات اختبار فلورية مستقلة تمامًا ذات أساليب تجريبية مختلفة تمامًا.

على الرغم من أن طول التسلسل وتكوين الأحماض الأمينية ومبدأ الكشف في مجموعة البيانات هذه يختلف عن تلك الموجودة في بيانات التدريب، إلا أن درجة القطع المتوقعة للنموذج لا تزال تحافظ على ارتباط إيجابي قوي بالقيمة التجريبية (r = 0.80 لـ MMP13)، ويمكنها التمييز بدقة بين التسلسلات "المقطوعة" و"غير المقطوعة" التي تم التحقق منها تجريبياً.يؤكد هذا بقوة أن برنامج CleaveNet Predictor لا يستطيع فقط حفظ أنماط بيانات التدريب، بل يمكنه أيضًا التقاط القوانين البيوكيميائية العالمية التي تحكم انقسام الركيزة بواسطة البروتيازات.تتمتع بقدرة تعميم قوية.

يمكن لبرنامج CleaveNet أن يتنبأ بدقة بكفاءة انقسام الببتيدات الاصطناعية على إنزيمات MMPs.

ثانيًا،كشف تحليل المعلوماتية الحيوية للتسلسلات التي تم إنشاؤها بواسطة مولد CleaveNet من قبل الباحثين عن الأساس المنطقي والجدة.بالمقارنة مع تسلسلات "التحكم غير المعتمد على الموقع" التي تعتمد فقط على أخذ عينات عشوائية من ترددات مواقع الأحماض الأمينية المفردة، فإن التسلسلات التي يولدها النموذج التوليدي تعيد إنتاج أنماط الانقسام الكلاسيكية لعائلة MMP بدقة أكبر، وتُظهر توزيعًا للأحماض الأمينية في مناطق جيب ربط الركيزة الرئيسية يُشابه البيانات التجريبية الفعلية بشكل أوثق. والأهم من ذلك،تتوافق التسلسلات المولدة مع مجموعة البيانات الحقيقية من حيث الخصائص الفيزيائية الحيوية العامة (مثل كراهية الماء والشحنة).مع ذلك، لا يعني توليد بيانات عالية الجودة مجرد نسخ بيانات التدريب. فقد أظهر تحليل تنوع التسلسل أن نسبة الببتيدات الاصطناعية الطويلة الفريدة المشتركة بين التسلسلات المولدة ومجموعة التدريب كانت منخفضة للغاية، مما يشير إلى أن النموذج تجنب التجاوز في التخصيص وكان قادرًا على استكشاف مساحات تسلسلية جديدة لم تغطها بيانات التدريب.

كشف تحليل التجميع الوظيفي الإضافي أن أطياف نشاط الانقسام المتوقعة للركائز عالية الدرجة التي تم إنشاؤها بواسطة MMPs المختلفة يمكن تجميعها بشكل طبيعي بناءً على العلاقات التطورية للمجالات التحفيزية لـ MMP.وهذا يوضح أن النموذج التوليدي لا يتعلم أنماط التسلسل الظاهرة فحسب، بل يلتقط أيضًا بشكل جوهري معلومات حول التمايز الوظيفي في تطور البروتيازات.وهذا يدل على المنطق البيولوجي للنتائج التي تم التوصل إليها.

أظهرت التسلسلات المُولَّدة أنماط انقسام ذات أهمية بيولوجية عبر فئات وظيفية مختلفة من إنزيمات الماتريكس المعدنية.

في نهاية المطاف، تم التحقق من صحة جميع التصاميم الحاسوبية من خلال تجارب كيميائية حيوية مخبرية. قام الباحثون بتخليق مجموعات متعددة من الركائز المرشحة المصممة بواسطة برنامج CleaveNet والتي تستهدف إنزيم MMP13، بما في ذلك تسلسلات تم توليدها مباشرة بواسطة النموذج التوليدي وتسلسلات تم فحصها بواسطة النموذج التنبؤي. وقد أسفرت تجارب التحلل باستخدام تقنية نقل طاقة الرنين الفلوري (FRET) عن نتائج مقنعة.تم بنجاح قطع جميع الركائز الـ 24 المصممة باستخدام خط أنابيب CleaveNet بواسطة MMP13 المعاد بناؤه، محققة معدل نجاح بنسبة 100٪ (TP3T).علاوة على ذلك، كانت كفاءة القطع المتوسطة أعلى بكثير من كفاءة الركائز المرجعية الإيجابية عالية الكفاءة المعروفة في مجموعة التدريب. وهذا يؤكد قدرة هذه العملية على تصميم ركائز عالية الكفاءة.

ولإثبات إمكانات هذه العملية في معالجة مهام أكثر تعقيدًا، مثل تصميم ركائز عالية الانتقائية، استخدمت هذه الدراسة استراتيجية توليد مشروطة، حيث تم تحديد "انتقائية عالية لـ MMP13" كهدف في النموذج التوليدي. وأظهر الفحص المتوازي واسع النطاق اللاحق في المختبر (95 زوجًا من الركائز لـ 12 نوعًا مختلفًا من MMPs) أن الركائز المُولَّدة من خلال التوجيه المشروط أظهرت انتقائية عالية.إن نشاط الانقسام منحاز بشكل كبير نحو MMP13، مما يؤدي إلى انتقائية أعلى.

ومن الجدير بالذكر أن بعض الركائز المصممة تتمتع بكفاءة قطع عالية وانتقائية عالية، وهو مزيج ممتاز نادر للغاية في بيانات التدريب الأصلية، مما يسلط الضوء على قدرة CleaveNet القوية على استكشاف مساحات تسلسل جديدة وعالية الجودة.

يمكن تقطيع الركائز المصممة من قبل CleaveNet بكفاءة بواسطة MMP13 في المختبر.

باختصار، بدءًا من التنبؤ الحسابي الدقيق، مرورًا بتوليد التسلسلات المنطقية، وصولًا إلى التحقق التجريبي العملي الحاسم، تُظهر سلسلة من النتائج المترابطة أن CleaveNet قد أنشأت منصة فعّالة وموثوقة وقوية لتصميم ركائز البروتياز. لا يقتصر هذا البحث على تقديم حل مبتكر قائم على الذكاء الاصطناعي للتحدي الكلاسيكي المتمثل في تنظيم نشاط البروتياز، بل يضع أيضًا أساسًا منهجيًا جديدًا لأبحاث وظائف البروتياز المستقبلية وتطوير الأدوية ذات الصلة.

الابتكار المدعوم بالذكاء الاصطناعي في تصميم ركائز البروتياز

تقود تقنية تصميم ركائز البروتياز المدعومة بالذكاء الاصطناعي من CleaveNet الابتكار في مجالات علوم الحياة والطب الحيوي في جميع أنحاء العالم.

نشر فريق ديفيد بيكر في جامعة واشنطن بحثاً رائداً في مجلة ساينس.لأول مرة، تم استخدام الذكاء الاصطناعي لتصميم سيرين هيدرولاز بموقع نشط معقد من الصفر - وهي واحدة من أكبر عائلات الإنزيمات المعروفة.قدمت الدراسة شبكة تعلم آلي جديدة، PLACER، والتي لم تنجح فقط في تصميم إنزيم نشط يمكنه تحفيز تحلل الإستر بكفاءة، ولكنها اكتشفت أيضًا بشكل غير متوقع خمسة أنماط جديدة لطي البروتين، مما أدى إلى توسيع التنوع الهيكلي لهذه العائلة من الإنزيمات بشكل كبير.

* عنوان الورقة البحثية: التصميم الحاسوبي لهيدرولازات السيرين
* رابط الورقة:

https://www.science.org/doi/10.1126/science.adu2454

علاوة على ذلك، طوّر فريق مشترك من عدة جامعات أوروبية نموذجًا عامًا قائمًا على بنية Transformer، قادرًا على التنبؤ بدقة بتفاعلات البروتياز مع الركائز. يدمج هذا النموذج بيانات انقسام البروتياز العالمية متعددة المصادر، مما يحقق تنبؤًا فعالًا بتسلسلات الركائز عبر الأنواع. وقد تم التحقق من صحة قدرته على التعميم في أبحاث أجريت على بروتيازات من مسببات أمراض مختلفة، بما في ذلك البكتيريا والفيروسات، مما يوفر أساسًا مهمًا لتصميم التسلسل لتطوير أدوية مضادة للعدوى.

من المتوقع، مع استمرار التقارب بين علم الأحياء الحاسوبي والذكاء الاصطناعي وعلم الأحياء التركيبي، أن يتطور تصميم ركائز البروتياز من علم يجمع بين الفن والخبرة إلى مجال بحثي عالي التنظيم والهندسة. لن يُسرّع هذا من تطوير أدوية جديدة وأدوات تشخيصية ومحفزات حيوية صديقة للبيئة فحسب، بل سيساعدنا أيضاً في نهاية المطاف على فك شفرة المنطق الكامن وراء تنظيم الحياة، مما يُبشّر بعصر جديد من برمجة وظائف الحياة حسب الطلب.