نتائج جديدة من المجلة الموثوقة Cell Discovery! اقترح الفريق بقيادة هونغ ليانغ من جامعة شنغهاي جياو تونغ نموذج CPDiffusion لتصميم البروتينات الوظيفية بشكل آلي بالكامل وبتكلفة منخفضة للغاية

البروتينات هي المنفذ الرئيسي للأنشطة الحيوية، وكانت العلاقة بين بنيتها ووظيفتها دائمًا موضوعًا بحثيًا أساسيًا في مجال علوم الحياة. في السنوات الأخيرة، مع ظهور التعلم العميق، مع قدراته القوية على معالجة البيانات، يمكن للنموذج أن يتعلم العلاقة بين تسلسل البروتين وبنيته ووظيفته، وتصميم بروتينات جديدة ذات استقرار أعلى وتقارب ارتباط أقوى ونشاط إنزيمي أعلى، مما يمكن أن يحسن بشكل كبير من كفاءة تصميم البروتين ويقلل بشكل فعال من تكاليف البحث والتطوير.
ومع ذلك، تتطلب الأساليب الحالية عادةً تدريب نموذج بمعلمات كبيرة للغاية على مجموعة بيانات واسعة النطاق، وهو أمر يصعب تعميمه على بروتينات محددة ذات تسلسلات متجانسة نادرة، وغالبًا ما يمكن أن يولد فقط بروتينات ذات هياكل ووظائف بسيطة نسبيًا. بالإضافة إلى ذلك، يظهر التحقق التجريبي أن البروتينات المصممة عادة ما يكون نشاطها أقل، وأن البروتينات التي يمكنها التفوق على البروتينات البرية نادرة.
وفي هذا الصدد، قام تشو بينجكسين، الباحث المساعد في مجموعة هونغ ليانغ البحثية من كلية العلوم الطبيعية/كلية الفيزياء والفلك/معهد تشانغجيانغ للدراسات المتقدمة/كلية الصيدلة في جامعة شنغهاي جياو تونغ، وآخرون بتصميم إطار عمل نموذج احتمال الانتشار CPDiffusion.يجمع هذا الإطار بين ظروف توليد متعددة مثل بنية العمود الفقري للبروتين والمواقع النشطة، ويمكنه تعلم العلاقة الضمنية بين تسلسل البروتين وبنيته ووظيفته بتكلفة تدريب وتكلفة بيانات منخفضة للغاية، ثم إنشاء تسلسلات بروتينية متنوعة. يمكن لهذه التسلسلات المولدة أن تجتاز الاختبار بمعدل نجاح مرتفع للغاية في التحقق من التجربة الرطبة.
ومن الجدير بالذكر أن عملية التدريب والاستدلال الخاصة بـ CPDiffusion لا تتطلب أي توجيه من الخبراء تقريبًا.يمكنه التعرف تلقائيًا على المناطق المحفوظة بدرجة عالية، ثم إدخال المزيد من التغييرات في المناطق غير المحفوظة استنادًا إلى وظائف المناطق المحفوظة لزيادة تنوع التسلسلات الناتجة. نُشرت الدراسة، التي تحمل عنوان "نموذج انتشار البروتين المشروط يولد تسلسلات نوكلياز اصطناعية قابلة للبرمجة ذات نشاط معزز"، في مجلة Nature's Cell Discovery.
أبرز الأبحاث:
* نجحت الدراسة في تصميم وتوليد نوكليازات KmAgo وPfAgo، والتي زاد نشاط انقسام الحمض النووي الخاص بها بأكثر من 10 مرات، وهو أعلى بكثير من نشاط البروتينات البرية متوسطة الحرارة المكتشفة حاليًا.
* يمكن لهذه الدراسة تغيير مئات الأحماض الأمينية في وقت واحد، مما يوفر المزيد من الاحتمالات لأبحاث هندسة البروتين
* يمكن أيضًا للجيل المتنوع من تسلسلات البروتين الجديدة توسيع قاعدة بيانات عائلات البروتين، مما يوفر للعلماء موارد بحثية أكثر ثراءً

رابط الورقة:
https://www.nature.com/articles/s41421-024-00728-2
يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:
https://github.com/hyperai/awesome-ai4s
مجموعة البيانات: ضمان تنوع العينة وتجنب تحيز البيانات
من أجل تعلم العلاقة التخطيطية بين تسلسل البروتين والبنية والوظيفة،تم تدريب نموذج CPDiffusion باستخدام 20000 بروتين من النوع البري من CATH 4.2. وبالإضافة إلى ذلك، أضاف الباحثون 694 بروتين pAgos إلى مجموعة التدريب لتعزيز فهم النموذج لخصائص البروتينات التي سيتم توليدها.
تنتمي هذه البروتينات إلى عائلة بروتينات pAgo التي تم تجميعها في دراسات سابقة، بما في ذلك بروتينات pAgo القصيرة والطويلة A والطويلة B، مما يضمن تنوع العينات المختارة لتقليل مشكلات تحيز البيانات المحتملة. علاوة على ذلك، فإن معظم بروتينات WT في مجموعة البيانات هي بروتينات pAgo محبة للحرارة المتوسطة، وعدد قليل فقط من بروتينات pAgo طويلة المدى محبة للحرارة.
هندسة النموذج: تصميم بروتين pAgo آليًا في 6 خطوات
من أجل التحقق من تأثير CPDiffusion على توليد البروتينات الوظيفية، اختار الباحثون التركيز على بروتين pAgo. بروتين pAgo هو عبارة عن نوكلياز يلعب دورًا مهمًا في عملية تداخل الحمض النووي في بدائيات النوى. يمكنه التعرف بشكل خاص على تسلسلات DNA أو RNA أحادية السلسلة المحددة وقطعها وله قيمة تطبيقية واسعة في مجال التشخيص. علاوة على ذلك، تتمتع بروتينات pAgo بتقارب كبير مع الركائز ويمكنها التعرف بشكل خاص على تسلسلات الهدف، مما يجعلها أدوات مهمة للتصوير وتحرير الجينات.
استخدم الباحثون إطار عمل CPDiffusion لتصميم بروتينات pAgo جديدة.كما هو موضح في الشكل أ أدناه،أولاً، يتم تحويل تسلسل ومعلومات البروتين المدخل (pAgo الأصلي) إلى تمثيل بياني يعرض الخصائص الجزيئية والكيميائية والطوبولوجية للبروتين على مستوى الأحماض الأمينية.كما هو موضح في الشكل ب،يدخل البروتين مرحلة الانتشار الأمامي، حيث يتبع كل نوع من الأحماض الأمينية في البروتين الأصلي مصفوفة احتمالية استبدال معينة ويتم تدميره في سلسلة من الخطوات (خطوات T) حتى يتم توزيع التسلسل بأكمله بالتساوي.

كما هو موضح في الشكل ج أعلاه،في مرحلة الانتشار العكسي، قام الباحثون بأخذ عينات عشوائية من الأحماض الأمينية من 20 نوعًا من الأحماض الأمينية موزعة بالتساوي، ثم قاموا بإزالة الضوضاء من تسلسل البروتين تدريجيًا.كما هو موضح في الشكل د أعلاه،أثناء عملية إزالة الضوضاء، يستخدم الباحثون ظروفًا معينة (مثل بنية العمود الفقري من النوع البري للبروتين المستهدف، والبنية الثانوية، ومصفوفة استبدال الأحماض الأمينية بناءً على البروتين من النوع البري) لتوجيه العملية. ولضمان قدرة النموذج على تعلم التباين الضمني في البنية ثلاثية الأبعاد للبروتين، استخدم الباحثون طبقة التفافية للرسم البياني المتباين لتناسب دالة الانتشار. ويقوم النموذج بعد ذلك بإنشاء توزيع احتمالي مشترك لكل موضع من الأحماض الأمينية على العمود الفقري للبروتين. من خلال أخذ عينات من التوزيع المستفاد، يمكن للباحثين الحصول على تسلسل البروتين المقابل (pAgo المولد).كما هو موضح في الشكل هـ أعلاه.
بعد ذلك، استخدم الباحثون AlphaFold2 لإجراء تنبؤ هيكلي على التسلسلات المولدة وقاموا بفحص التسلسلات المناسبة من خلال تقييم المؤشرات مثل RMSD و pLDDT. أخيرا،كما هو موضح في الشكل (و) أدناه،ستخضع هذه التسلسلات المناسبة لتجارب رطبة في المختبر (التوليف والتمييز والتقييم) لمزيد من التأكيد على خصائصها الفعلية، مثل مستوى التعبير ونشاط الإنزيم والاستقرار الحراري.

الاستنتاج التجريبي: البروتين الجديد يتمتع بنشاط أقوى واستقرار حراري
استخدم الباحثون بروتينات pAgo المحبة للحرارة المتوسطة (مثل KmAgo) وبروتينات pAgo المحبة للحرارة (مثل PfAgo) كبروتينات مرشحة، ثم أنتجوا مجموعتين من تسلسلات البروتين الجديدة. كما هو موضح في الشكل أدناه، باستخدام إطار التوليد والفحص CPDiffusion، نجح الباحثون في توليد 27 KmAgos اصطناعيًا جديدًا (Km-APs) و15 PfAgos اصطناعيًا جديدًا (Pf-APs). تمتلك هذه البروتينات المولدة حديثًا هوية تسلسل 50%-70% مقارنة بالقالب البري الأصلي (WT) وهوية تسلسل أقل من 40% مقارنة ببروتينات WT غير القالب الأخرى (أي بروتينات WT الأخرى في قاعدة بيانات NCBI).
* KmAgo هو إنزيم متوسط الحرارة ذو نشاط انقسام DNA منخفض نسبيًا في النوع البري، مما يحد من إمكاناته في التطبيقات العملية
* PfAgo هو إنزيم عالي الحرارة. يتميز النوع البري بنشاط انقسام الحمض النووي بشكل أعلى، لكنه عادةً لا يعمل إلا في درجات حرارة عالية. مع انخفاض درجات الحرارة، ينخفض النشاط أيضًا.

ومن الجدير بالذكر أنلا تتطلب عملية التدريب والاستدلال الخاصة بـ CPDiffusion أي إرشادات من الخبراء تقريبًا.يمكنه التعرف تلقائيًا على المناطق المحفوظة بدرجة عالية، وبالتالي إدخال المزيد من التغييرات في المناطق غير المحفوظة استنادًا إلى وظائف المناطق المحفوظة لزيادة تنوع التسلسلات الناتجة.
ومن خلال التحقق التجريبي المتنوع، كما هو موضح في الشكل أدناه، وجد الباحثون أنه في التسلسلات الجديدة التي تم إنشاؤها لـ KmAgo،تم التعبير عن جميع التسلسلات. أظهرت ما يقرب من 901 تسلسل جديد من TP3T نشاط انقسام الحمض النووي، وأظهر أكثر من 701 تسلسل TP3T نشاطًا أعلى من النوع البري. ومن بينها، كان أداء الرواية الأفضل KmAgo أعلى بنحو 9 مرات من نشاط الرواية البرية KmAgo. بالإضافة إلى ذلك، بالمقارنة مع النوع البري KmAgo، تم أيضًا تعزيز الاستقرار الحراري لبعض Km-APs.

هـ: نشاط انقسام الحمض النووي لـ 27 Km-APs عند 37 درجة مئوية
ج: عدد البروتينات التي تلعب أدوارًا مختلفة في 27 Km-APs
f: أنشطة انقسام الحمض النووي لـ WT KmAgo و 27 Km-APs بعد الحضانة عند 42 درجة مئوية لمدة 2 و 5 دقائق.
كما هو موضح في الشكل أدناه،من بين 15 تسلسلًا جديدًا تم إنشاؤها لـ PfAgo، تم التعبير عنها جميعًا وأظهرت نشاط انقسام الحمض النووي أحادي السلسلة. ومن بين هذه المركبات، لم يخفض أفضل بروتين PfAgo الجديد أداءً درجة انصهار البروتين PfAgo البري من حوالي 100 درجة مئوية إلى حوالي 50 درجة مئوية فحسب، بل إن نشاط انقسام الحمض النووي أحادي السلسلة عند 45 درجة مئوية كان ضعف نشاط البروتين PfAgo البري عند 95 درجة مئوية، وكان 11 ضعف نشاط البروتين KmAgo البري عند درجة حرارة متوسطة.

ج: نشاط انقسام الحمض النووي لـ 15 Pf-APs عند 45 درجة مئوية
د: درجة انصهار WT PfAgo وPf-AP
هـ: عدد التسلسلات التي تلعب أدوارًا مختلفة بين 15 Pf-APs
باختصار، يمكن استخدام CPDiffusion كأداة جديدة وقوية لتصميم تسلسل البروتين يمكنها التعلم تلقائيًا من البروتينات الوظيفية من النوع البري وتصميم تسلسلات بروتينية معقدة أكثر قوة، مما يؤدي إلى إثراء قاعدة بيانات البروتين الحالية وتوفير المزيد من الاحتمالات لتصميم هندسة البروتين.
الذكاء الاصطناعي يعيد تشكيل مستقبل هندسة البروتين
إن استخدام الذكاء الاصطناعي لفك ألغاز البروتينات له أهمية كبيرة في رقمنة أبحاث علوم الحياة. وفي هذا السباق لاستكشاف جوهر الحياة، تواصل فرق البحث الصينية تحقيق تقدم مستمر وتساهم في هذا المجال. باعتباره أحد الممثلين المتميزين في هذا المجال،لقد ركز البروفيسور هونغ ليانغ، المؤلف المشارك لهذه الدراسة، وفريقه البحثي منذ فترة طويلة على التعديل الموجه للبروتين باستخدام الذكاء الاصطناعي وتصميم الأدوية المساعدة.تتضمن محتويات البحث المحددة، على سبيل المثال لا الحصر، التنبؤ ببنية البروتين وتحسينها، والتعديل والتصميم الموجه للبروتين، وتصميم الأدوية المساعدة وتحسينها، وما إلى ذلك. وقد حقق الفريق نتائج مثمرة. حتى الآن، تم نشر ما مجموعه 77 ورقة بحثية، العديد منها تصدرت مجلة Nature.
الصفحة الرئيسية لمجموعة أبحاث البروفيسور هونغ ليانغ:
https://ins.sjtu.edu.cn/people/lhong/index.html
منذ عام 2021، حاول فريق البروفيسور هونغ ليانغ تطبيق الذكاء الاصطناعي في مجال البروتين، على سبيل المثال،بناء نماذج خاصة في مجال هندسة البروتين لتصميم تسلسلات للوظيفة من البداية إلى النهاية.وقد تعاونوا مع الباحث تان بان من مختبر الذكاء الاصطناعي في شنغهاي لاقتراح طريقة تدريب دقيقة FSFP تعتمد على نموذج التدريب المسبق للبروتين. تستطيع هذه الطريقة تدريب نموذج التدريب المسبق للبروتين بكفاءة باستخدام 20 بيانات تجريبية رطبة عشوائية فقط، مما يحسن بشكل كبير معدل إيجابية التنبؤ بطفرة النقطة الواحدة للنموذج. يمكن استخدامه لتعلم قدرة البروتين على التكيف من خلال عينات صغيرة، وقد أظهر إمكانات كبيرة في التطبيقات العملية.
كما قام فريق البروفيسور هونغ ليانغ بتطوير شبكة عصبية بيانية مدركة للبيئة الدقيقة تسمى ProtLGN.يمكنه تعلم وتوقع مواقع طفرة الأحماض الأمينية المفيدة من بنية البروتين ثلاثية الأبعاد، وتوجيه تصميم الطفرات في موقع واحد والطفرات متعددة المواقع ذات وظائف مختلفة. أظهرت النتائج التجريبية أن أكثر من 40% ProtLGN المصممة بروتينات متحولة أحادية النقطة تفوقت على نظيراتها من النوع البري.
مزيد من التفاصيل: بدون بيانات تجريبية لتوجيه تطور البروتين الموجه، نشرت مجموعة البحث التابعة لهونج ليانج من جامعة شنغهاي جياوتونغ شبكة عصبية بيانية تدرك البيئة الدقيقة ProtLGN
بالإضافة إلى ذلك، قاموا بتقديم محول SES-Adapter البسيط والفعال والقابل للتطوير،إن الجمع بين تضمينات نموذج لغة البروتين مع تضمينات تسلسل البنية لإنشاء تمثيلات واعية بالبنية يمكن أن يعزز بشكل كبير أداء نماذج لغة البروتين.
يوضح البحث المذكور أعلاه الإمكانات القوية للتعلم العميق في تصميم البروتين. ليس هناك شك في أنه مع التوسع في تطبيق تكنولوجيا التعلم العميق في مجال البروتين، فإن أبحاث هندسة البروتين سوف تفتح المجال أمام مساحة أوسع للتطوير.
مراجع:
https://mp.weixin.qq.com/s/a4gsV4yjzKnW4u6Vtl8LiQ
https://ins.sjtu.edu.cn/article