HyperAI

بدون بيانات تجريبية لتوجيه التطور الموجه بالبروتين، نشرت مجموعة البحث بجامعة شنغهاي جياوتونغ شبكة عصبية بيانية تدرك البيئة الدقيقة ProtLGN

特色图像

تلعب هندسة البروتين دورًا حيويًا في التكنولوجيا الحيوية الحديثة والأبحاث الطبية. من خلال تعديل تسلسل الأحماض الأمينية في البروتين، يمكن للهندسة البروتينية تحسين أو إعطاء البروتين خصائص كيميائية حيوية جديدة، مثل تعزيز الكفاءة التحفيزية للإنزيم، أو زيادة تقارب الدواء، أو تحسين استقراره الحراري. وتعتبر هذه التحسينات ضرورية لتطوير أدوية جديدة، وعلاج الأمراض، وزيادة كفاءة التصنيع الحيوي.

تتطلب هندسة البروتين اختيار أفضل الطفرات من بين عشرات الآلاف من الطفرات المرشحة. تشير الطفرات المواتية إلى الاختلافات الجينية التي يمكنها تحسين خاصية كيميائية حيوية واحدة أو أكثر للبروتين، وتعزيز الاستقرار أو التقارب أو الانتقائية أو الكفاءة التحفيزية للبروتين، وجعله أكثر ملاءمة لتطبيقات محددة. لكن،إن التحقق التجريبي من الطفرات شديدة التكيف أمر مكلف ويستغرق وقتا طويلا. بالإضافة إلى ذلك، فإن الجمع بين الطفرات المفيدة المتعددة يتأثر في كثير من الأحيان بالتأثيرات الجينية السلبية.وتؤدي هذه العوامل إلى زيادة تعقيد تصميم البروتين الفعال بدرجات متفاوتة، مما يتسبب في تقليل وظيفة البروتين بسبب الطفرات.

في السنوات الأخيرة، تم التحقق من طرق التنبؤ والفحص القائمة على التعلم العميق وتطبيقها في التطبيقات العملية: من خلال تحليل كميات كبيرة من البيانات وتعلم العلاقة بين تسلسل البروتين وبنيته ووظيفته، يمكن تحسين دقة وكفاءة تصميم البروتين. ومع ذلك، تعتمد معظم الطرق على محاذاة التسلسلات المتعددة (MSA) أو نموذج لغة البروتين (PLM) لاستخراج الميزات من تسلسلات البروتين، والتي لها العديد من القيود.على سبيل المثال، يعتمد على جودة محاذاة التسلسلات المتعددة ويقتصر على معلومات التماثل؛ أو أنها تتطلب كمية كبيرة من البيانات والنماذج المعقدة، وتتطلب تكاليف تدريب عالية. بالإضافة إلى ذلك، فإن تطبيق النماذج المدربة مسبقًا بشكل مباشر على مهام جديدة يشكل تحديًا كبيرًا لقدرات النموذج على التعميم والتعبير.

تحقيقا لهذه الغاية،طورت مجموعة أبحاث هونغ ليانغ في جامعة شنغهاي جياو تونغ تقنية جديدةتعفنالشبكة العصبية الرسومية التي تدرك البيئة الدقيقة لـ LGN،يمكنه تعلم وتوقع مواقع طفرة الأحماض الأمينية المفيدة من هياكل البروتين ثلاثية الأبعاد، وتوجيه تصميم الطفرات في موقع واحد والطفرات متعددة المواقع ذات وظائف مختلفة، وتحقيق P أكبر من 40%.تعفنتتفوق البروتينات الطافرة أحادية النقطة المصممة بواسطة LGN على نظيراتها من النوع البري. وقد نشرت النتائج في مجلة JCM.

عنوان الورقة:
https://pubs.acs.org/doi/10.1021/acs.jcim.4c00036
قم بمتابعة الحساب الرسمي ورد "protein design" للحصول على ملف PDF كامل

صتعفنLGN: بناء شبكة عصبية بيانية خفيفة الوزن لإزالة الضوضاء

صتعفنإطار عمل LGN: شبكة تعلم البروتين القائمة على الشبكة العصبية البيانية

صتعفنLGN هو نموذج تعليمي لتمثيل البروتين يعتمد على الشبكة العصبية البيانية. هندستها الأساسية هي كما يلي:


صتعفنهندسة LGN

* رسم بياني kNN (رسم بياني لأقرب الجيران k):

يتم استخدام بقايا الأحماض الأمينية للبروتين المدخل كعقد في الرسم البياني، ويتم تحديد المسافة المكانية بين القاعدة الحافة وبقايا الأحماض الأمينية من خلال خوارزمية أقرب جار k، وبالتالي بناء البنية الطوبولوجية للبروتين، مما يوفر أساسًا لمعالجة الشبكة العصبية للرسم البياني اللاحقة.

* الشبكة العصبية الرسومية المتغيرة المتساوية GNN:

في الفضاء ثلاثي الأبعاد، قد يدور هيكل البروتين أو ينعكس. باعتبارها طبقة الشبكة الأساسية، تم تصميم GNN المتغيرة للتعرف على بنية الثبات الدوراني هذه والحفاظ عليها، أي بغض النظر عن كيفية تدوير الرسم البياني للبروتين، يجب أن يكون خرج الشبكة متسقًا لنفس بنية البروتين.

* تضمين العقدة:

في التمثيل البياني للبروتين، يتم تمثيل كل بقايا الأحماض الأمينية كعقدة في الرسم البياني حتى تتمكن نماذج التعلم الآلي من التقاط وفهم العلاقات المعقدة بين العقد.

* طبقة الإخراج والنتيجة (طبقة القراءة والنتيجة):

يتم استخدام تمثيلات العقد التي تم تعلمها بواسطة GNN المتغيرة لتحديد مواقع الطفرة المفيدة والتنبؤ بالتأثيرات المحتملة للطفرات على وظيفة البروتين أو بنيته. وفي الوقت نفسه، باعتبارها الطبقة الأخيرة من النموذج، يتم تحويل نتائج التنبؤ إلى درجات كمية.

* تصديق:

تم استخدام الأساليب البيولوجية التجريبية مثل اختبار الممتز المناعي المرتبط بالإنزيم (ELISA) وتحليل الاستقرار الحراري الفلوري التفاضلي (DSF) للتحقق تجريبياً من الطفرات التي تنبأ بها النموذج واختبار وظائفها البيولوجية.

صتعفنعملية تدريب LGN: التدريب - التنبؤ - الضبط الدقيق

صتعفنتظهر عملية تدريب LGN في الشكل أدناه، والتي تتضمن التدريب والتنبؤ وضبط النموذج بدقة:


صتعفنعملية التدريب المسبق والتنبؤ بشبكة LGN

* التدريب المسبق الخاضع للإشراف الذاتي:

صتعفنتم تدريب LGN أولاً على مراقبة نفسه ذاتيًا على البروتينات من النوع البري لمهمة إزالة الضوضاء من النوع AA.

تشكل معلومات الإحداثيات ثلاثية الأبعاد الموجودة في الرسم البياني المدخل جزءًا من سمات العقدة ويتم استخدامها لتمثيل مواضع بقايا الأحماض الأمينية بشكل أكثر دقة في الفضاء ثلاثي الأبعاد للبروتين.

تشكل معلومات الإحداثيات ثلاثية الأبعاد والخصائص الفيزيائية والكيميائية الحيوية للأحماض الأمينية (مثل نوع الحمض الأميني، SASA، عامل B، وما إلى ذلك) معًا خصائص العقد وحواف الرسم البياني المدخل. يتم استخدام هذه الخصائص لبناء رسم بياني KNN، حيث يتم ربط كل عقدة (بقايا الأحماض الأمينية) مع بعضها البعض وفقًا للمسافة المكانية الخاصة بها إلى العقد الأخرى.

صتعفنعملية التعلم الذاتي الخاضعة للإشراف في LGN

* طبقة التفاف الرسم البياني المتغير المتساوي (EGC):

يتم استخدام الشبكات العصبية ذات الرسم البياني المتغير المتساوي (طبقات EGC) في التدريب المسبق لمعالجة الرسم البياني للبروتين المدخل. من خلال هذه الطبقة، يستطيع النموذج أن يتعلم تضمينات العقد التي تظل دون تغيير أثناء التحولات الدورانية والترجمة، مما يساعد في معالجة هياكل البروتينات المختلفة.

تشكل طبقة EGC جوهر الشبكة العصبية البيانية، والتي يمكنها معالجة بيانات بنية الرسم البياني والحفاظ على الحساسية للتغيرات في البنية المكانية للبروتينات، وهو أمر بالغ الأهمية لفهم البنية ثلاثية الأبعاد للبروتينات.

في عملية التعلم الخاضع للإشراف الذاتي، تستقبل طبقة EGC رسمًا بيانيًا للبروتين من النوع البري الصاخب كمدخلات ومخرجات تتضمن تمثيلات للعقد تأخذ في الاعتبار العلاقات المكانية بين بقايا الأحماض الأمينية.

* سمات الإدخال الصاخبة:


أثناء التدريب، يتم حقن الضوضاء في خصائص الإدخال للبروتين من النوع البري لمحاكاة الطفرات العشوائية في الطبيعة.

* التنبؤ بالرصاصة الصفرية:

تشير الأسهم الزرقاء إلى أنه عند النظر في طفرة بروتينية، يستخدم النموذج المعرفة المكتسبة خلال مرحلة ما قبل التدريب للتنبؤ بالتأثير المحتمل للطفرة على وظيفة البروتين.

* التقييمات الكيميائية الحيوية الرطبة:

يتيح الجمع بين تنبؤات الطفرات والتقييم التجريبي الرطب تحديث النماذج المدربة مسبقًا لتناسب البروتينات والوظائف المحددة بشكل أفضل.

* الكون المثالى:

كما هو موضح في جزء السهم الأخضر من الرسم التخطيطي، بالتزامن مع تقييم التجارب الرطبة، يمكن تحديث النموذج المدرب مسبقًا وتحسينه وفقًا للبروتينات والوظائف المحددة لتحسين دقة وقابلية التكيف للتنبؤ.

ومن أجل الاستفادة بشكل أكبر من المعلومات البيولوجية المسبقة لتحسين تعميم النموذج وقدرته على التعبير، اتخذ الباحثون أيضًا ثلاثة تدابير إضافية: * ضوضاء نوع الأحماض الأمينية المدخلة لمحاكاة الطفرات العشوائية في الطبيعة؛ * في آلية تسجيل دالة الخسارة للتنبؤ بعقدة الأحماض الأمينية، تم تقديم تنعيم العلامة لتشجيع الاستبدالات بين الأحماض الأمينية المتشابهة؛

* استخدام استراتيجية التعلم متعدد المهام للسماح للنموذج المدرب مسبقًا بتعلم أهداف تنبؤ متعددة، وبالتالي تدريب نموذج التعلم التمثيلي البياني "كلمة واحدة، استخدامات متعددة".

استكشاف إمكانات التطور الموجه للبروتين: صتعفنتوفر LGN استراتيجيات فعالة

من أجل التحقق من Pتعفنمن أجل التحقق من دقة LGN في التنبؤ بنشاط الطفرات البروتينية، أجرت هذه الدراسة أعمال تحقق واسعة النطاق على الوظائف البيولوجية المختلفة للبروتينات المتعددة لضمان أن Pتعفنإن عالمية شبكات LGN، والتي تشمل أجسام مضادة VHH، وبروتينات فلورية مختلفة (مثل البروتينات الفلورية الخضراء والزرقاء والبرتقالية)، والنوكليازات (KmAgo)، تغطي أهداف التعديل الوظيفية الشائعة في هندسة البروتين، مثل الاستقرار الحراري، وتقارب الارتباط، وسطوع الفلورسنت، ونشاط انقسام الحمض النووي أحادي السلسلة.

تظهر البيانات التجريبية أنه حتى في حالة عدم وجود بيانات تجريبية أو في حالة عدم وجود بيانات تجريبية على بروتينات مماثلة، فإن Pتعفنلا يزال بإمكان LGN تحقيق معدل نجاح التنبؤ بالطفرة في نقطة واحدة لـ 40% وفي بعض الحالات يمكنه تعزيز وظائف بيولوجية متعددة في وقت واحد.

صتعفنLGN والبروتينات الفلورية: نموذج تنبؤي لقدرة الهجرة

استخدم الباحثون Pتعفنتم ضبط نموذج LGN للبروتين الفلوري الأخضر (GFP) لتطوير دالة تسجيل مُحسّنة خصيصًا لشدة الفلورسنت. تم اختيار 1000 طفرة GFP مصنفة بشكل عشوائي من قاعدة بيانات Deep Mutation Scanning (DMS) للتدريب الدقيق، مما أدى إلى تحسين دقة النموذج في التنبؤ باختلافات شدة الفلورسنت.


نتائج تجارب البروتين الفلوري

* يظهر هيكل البروتين على اليسار، مع تسليط الضوء على بقايا الأحماض الأمينية المتحولة من خلال الكرات الحمراء

* تظهر بيانات شدة الفلورسنت على اليمين، بمقارنة الطفرات المختلفة مع WT

يقوم الشكل (أ) بتقييم فائدة دالة تسجيل اللياقة البدنية الخاصة بالوظيفة والتي تم تعلمها من عدد صغير من المتغيرات الخاصة بالبروتين الفلوري الأخضر (GFP). من بين الطفرات العشرة،وأظهرت خمسة منها كثافة فلورية أعلى من النوع البري (WT)، وكان الطفرة ذات الأداء الأفضل لها كثافة فلورية كانت ضعف كثافة النوع البري (WT).

بالإضافة إلى ذلك، فحصت التجربة أداء نفس وظيفة التسجيل على البروتين الفلوري البرتقالي (orangeFP)، والذي يأتي من عائلة بروتينية مختلفة، وله منطقة نشطة مختلفة، وله تسلسل متماثل تقريبًا مع 21% من GFP. استخدم الباحثون نموذج P الدقيقتعفنقامت شركة LGN بتصنيف الطفرات ذات النقطة الواحدة لـ orangeFP واختارت أفضل 10 متغيرات للتعبير والاختبار باستخدام التحليل الرطب. ومن بين هذه الطفرات،وأظهرت سبعة منها كثافة فلورية أعلى من WT، وتسلط هذه النتيجة الضوء على قدرة الهجرة القوية للنموذج.

صتعفنأجسام مضادة لـ LGN وVHH: صفر عينات Pتعفنأداء LGN

استخدم المجربون Pتعفنفي غياب البيانات التجريبية، تم تدريب نموذج LGN مسبقًا على ما يقرب من 30000 بنية بروتينية غير مُسمّاة، وتم اختيار أفضل 10 طفرات بين متغيرات الأجسام المضادة VHH ذات أعلى تنبؤ باللياقة البدنية للتقييم التجريبي الرطب.


صتعفننتائج الأجسام المضادة VHH المصممة بواسطة LGN

(أ) يظهر هيكل الجسم المضاد VHH على اليسار، ويظهر تقارب الارتباط للجسم المضاد VHH وطفراته ذات النقطة الفردية على اليمين.

(ب): يوضح الجانب الأيسر بنية الجسم المضاد VHH، حيث تحدث الطفرات في مواقع مختلفة، ويوضح الجانب الأيمن درجة حرارة نقطة انصهار الجسم المضاد VHH وطفراته ذات النقطة الواحدة

أظهرت ثلاثة طفرات أداءً ممتازًا في كل من تقارب الارتباط والاستقرار الحراري.وهذا يؤكد أن Pتعفنفعالية LGN في توجيه تصميم طفرات الأجسام المضادة VHH، وخاصة في تحسين أداء الأجسام المضادة. صتعفنتوفر استراتيجية التعلم الذاتي التي تعتمدها شبكة LGN أداة قوية للهندسة البروتينية، مما يتيح التنبؤ الدقيق بالطفرات في غياب البيانات التجريبية.

صتعفنبروتينات LGN وAgo: إيجاد التركيبة المثلى للطفرة المفردة

استخدم الباحثون Pتعفنأجرى LGN تسجيلًا مشتركًا لـ 12 طفرة معروفة ذات نقطة واحدة وقام بفحص أفضل 5 مرشحين للطفرة عالية الترتيب في 2-7 مواقع، بإجمالي 30 طفرة، من أجل العثور على متغيرات بروتين Ago ذات أداء أفضل من خلال تقييم التجربة الرطبة.


صتعفنطفرات KmAgo المصممة بواسطة LGN والنتائج التجريبية

* أعلى اليسار: بنية بروتين KmAgo

* أعلى اليمين: الأنشطة المثالية لطفرات KmAgo مع أعداد مختلفة من مواقع الطفرة. قد يشير هذا إلى كيفية تغير النشاط مع زيادة عدد مواقع الطفرة.

* الأوسط والأدنى: نشاط انقسام جين KmAgo وطفرات مواقع الطفرة المتعددة الخاصة به

وتظهر النتائج التجريبية ما يلي:

* تعزيز النشاط:وبالمقارنة مع النوع البري (WT)، أظهرت الطفرات في 90% نشاط انقسام الحمض النووي المعزز.

* أفضل متحولة:كانت أفضل الطفرات هي الطفرات ذات 7 مواقع مع نشاط أعلى بـ 8 مرات من نشاط WT.* مزايا الطفرات ذات الدرجة الأعلى:تميل الطفرات عالية الترتيب إلى إظهار نشاط أعلى من الطفرات منخفضة الترتيب، سواء من حيث تحسن النشاط الأقصى أو التحسن المتوسط.

صتعفنكان نموذج LGN قادرًا على تحديد الطفرات ذات اكتساب الوظيفة العالي والتأثيرات الإبستاتية الإيجابية بنجاح عند الجمع بين مواقع الطفرة الفردية. وهذا يؤكد أن Pتعفنفعالية LGN في توجيه تصميم طفرات بروتين Ago، وخاصة في تحسين أداء الأجسام المضادة.

صتعفنمقارنة LGN مع نماذج أخرى ذاتية الإشراف: أكثر كفاءة وأكثر دقة

وفي الدراسة الأخيرة، استخدم العلماء Pتعفنيتنبأ نموذج LGN بملاءمة البروتين في مجموعة بيانات المسح الطفري العميق (DMS) ويتم مقارنته بنماذج التعلم الذاتي الإشراف الأخرى.


تأثيرات التنبؤ بالبروتين في النماذج المختلفة

أ: كفاءة الاستدلال وفعالية نماذج التعلم العميق ذات اللقطة الصفرية

ب: أداء التنبؤ بتأثيرات مواقع الطفرة المتعددة

ج: تحسين أداء التنبؤ بالطفرات عالية المستوى

وتظهر النتائج التجريبية أن Pتعفنيحقق LGN أفضل أداء بين جميع النماذج التي تمت مقارنتها.إنه لا يتنبأ بملاءمة البروتينات بدقة فحسب، بل يستخدم أيضًا الحد الأدنى من عدد المعلمات القابلة للتدريب.وهذا مهم لأن وجود عدد أقل من المعلمات يعني أن النموذج أقل تكلفة في التدريب والضبط الدقيق، ويعني أيضًا أن النموذج يمكنه التعلم بشكل فعال على بيانات أقل تصنيفًا.

وفي المرحلة النهائية من التجربة، استخدم الباحثون بعض العلامات التجريبية المتاحة لتعزيز الضبط الدقيق للنموذج، مما أدى إلى تحسين دقة التوقعات بشكل أكبر.وتظهر النتائج أن Pتعفنتتفوق LGN بشكل كبير على الطرق الأخرى في الأداء، وخاصة عند التعامل مع الطفرات عالية الترتيب.

صتعفنالتنبؤ بمواقع البروتين تحت الخلوية من خلال الشبكات العصبية التلافيفية: تحليل شامل للبنية ثلاثية الأبعاد للبروتين

في دراسة رائدة، استخدم العلماء Pتعفنيتم استخدام نموذج LGN للتنبؤ بالتوطين الفرعي للبروتينات (PSL)، أي الموقع المحدد للبروتينات في الخلايا، والذي يرتبط ارتباطًا وثيقًا بوظيفة البروتينات.


نموذج التنبؤ بتوطين البروتين تحت الخلوي

استخدم فريق البحث لأول مرة Pتعفنقام نموذج LGN بتحليل 9,366 بروتينًا مُسمى، يتكون كل منها من تمثيل مستوى الأحماض الأمينية الخاصة به. وبعد ذلك، تم تقييمه على 2738 بروتين اختبار للتنبؤ بـ 10 مواقع محتملة لهذه البروتينات داخل الخلية. وتظهر النتائج التجريبية أن Pتعفنتتفوق LGN بشكل كبير على الطرق الأساسية الحالية القائمة على تسلسل الأحماض الأمينية أو معلومات التماثل في دقة التنبؤ.

الخلاصة: "ثورة الذكاء الاصطناعي" في الطب الحيوي لا حدود لها

بدءًا من AlphaFold، عملت الذكاء الاصطناعي بشكل مستمر على تحديث الحدود المعرفية للهندسة الطبية الحيوية، ولكن التعلم العميق لا يزال محدودًا بالبيانات عالية الجودة. بالنسبة لهذا القيد، Pتعفنقد يوفر تدريب التعلم من الصفر لـ LGN الإجابة. مع دخولنا عصر الذكاء الاصطناعي العام بدون أي بيانات، فمن المرجح أن الجيل القادم من علماء الأحياء البنيوية لن يكونوا خبراء في الأساليب التجريبية بشكل أساسي، بل سيكونون مسؤولين بشكل أكبر عن تفسير وتصميم وتنفيذ التجارب القائمة على البنية لإثبات أو دحض الآليات في علم الأحياء، أو لتصميم وظائف بروتينية جديدة وعلاجات سريرية.