يستخدم أحدث بحث لفريق ديفيد بيكر نماذج توليد تسلسل البروتين لتحقيق تصميم الجينات المتداخلة بمعدل نجاح مرتفع للغاية

في عام 1977، اكتشف عالم الكيمياء الحيوية البريطاني فريدريك سانجر ظاهرة أدت إلى تقويض الإدراك لأول مرة عند تحليل جينوم البكتيريا ΦX174: كان الطول الإجمالي للبروتينات المشفرة بواسطة جزيء الحمض النووي هذا الذي يبلغ طوله 5.4 كيلو بايت يتجاوز حد قدرته المادية إلى حد كبير. وكشفت نتائج التسلسل أنيتشارك زوجان من الجينات نفس منطقة الحمض النووي من خلال إطارات قراءة مختلفة - تسمى هذه الظاهرة بالجينات المتداخلة (OLG) وهي شائعة للغاية في عالم الفيروسات.على سبيل المثال، في جينوم فيروس التهاب الكبد B الذي يبلغ طوله 3.2 كيلو بايت، تكون منطقة 50% مغطاة بأزواج متعددة من الجينات المتداخلة، وأكثر من نصف الفيروسات المعروفة تحتوي على OLG واحد على الأقل.
يخفي هذا التصميم الجينومي غير البديهي حكمة الفيروس في البقاء: عندما تتنافس الفيروسات على مساحة محدودة في الخلايا المضيفة، يستخدم OLG استراتيجية "تكديس الجينات" للسماح لنيوكليوتيد واحد بالمشاركة في ترميز كودونين في نفس الوقت، مما يحقق تراكبًا وظيفيًا في تسلسل مضغوط. وقد أدى اكتشاف فريق سانجر إلى بدء أبحاث ذات صلة. وقد أظهرت الدراسات اللاحقة أن البروتينات المشفرة بواسطة OLG غالبًا ما يكون لها انحطاط تسلسلي مرتفع، كما أن تحملها لتسلسل الأحماض الأمينية يسمح لبروتينين وظيفيين بالتعايش على نفس سلسلة الحمض النووي. والأمر الأكثر أهمية هو أن حتى البروتينات التي تحتاج إلى تشكيل بنية ثلاثية الأبعاد واضحة يمكنها تحقيق التوافق في إطارات القراءة المختلفة من خلال ترتيب التسلسل.
ومع ذلك، يظل السؤال الأساسي قائما دائما: في ظل الشفرة الجينية القياسية، هل يمكن أن يدعم انحلال تسلسلات الأحماض الأمينية طي أزواج البروتين الوظيفية التعسفية في أطر متداخلة؟ عندما يتعين على النيوكليوتيدات أن تأخذ في الاعتبار الترميز المزدوج، هل تكون مساحة التسلسل لطي البروتين مقيدة بشدة؟
استخدم فريق ديفيد بيكر في جامعة واشنطن مؤخرًا نماذج توليدية متقدمة لإجراء أبحاث تصميم OLG الاصطناعي والتحقق من جدواها من منظور هندسي.قام فريق البحث بتصميم تسلسلات متداخلة لعائلتين من البروتينات لتشفير هياكل بروتينية مصممة حديثًا وعالية الترتيب. وقد أظهر كل من المحاكاة الحاسوبية والتحقق التجريبي معدل نجاح مرتفع للغاية: ففي ظل القيود المتداخلة، لا تستطيع إطارات القراءة البديلة استيعاب طي ثلاثي الأبعاد واضح فحسب، بل إن استقرارها البنيوي وسلامتها الوظيفية قابلة للمقارنة مع تلك الموجودة في التسلسلات غير المتداخلة.
وقد تم نشر نتائج البحث ذات الصلة كنسخة أولية على bioRxiv تحت عنوان "تصميم الجينات المتداخلة باستخدام نماذج توليدية عميقة لتسلسلات البروتين".

عنوان الورقة:
https://doi.org/10.1101/2025.05.06.652464
يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:
https://github.com/hyperai/awesome-ai4s
مجموعة البيانات: دمج موارد البيانات متعددة الأبعاد وطرق التحليل
من أجل تحليل مرونة الشفرة الوراثية وتطبيقاتها في تصميم البروتين، تقوم هذه الدراسة بدمج مصادر البيانات متعددة الأبعاد وطرق التحليل لبناء سلسلة بحث كاملة من التصميم النظري إلى التحقق التجريبي.
في دراسات التوزيع العشوائي للرمز الجيني،أنتجت الدراسة 1000 تركيبة كودون بديلة بناءً على استراتيجيات تبديل الأحماض الأمينية وخلط الكودونات.تضمن مجموعة البيانات هذه تنوع العينة وتوحيدها من خلال تصميم خوارزمية واضح، مما يوفر معيارًا إحصائيًا لتقييم التأثير الوظيفي لإعادة ترتيب الكودون.
وفي الوقت نفسه، اختارت الدراسة 3 بروتينات مستهدفة ذات بنية ثانوية تمثيلية وبنت 9 مجموعات مقترنة، مما حقق توحيد الظروف التجريبية على أساس التحكم في المتغيرات وربط بشكل فعال تحليل الارتباط بين اختلاف الشفرة الجينية ووظيفة بنية البروتين.
في مرحلة تحليل تسلسل المجال البروتيني، استخرجت الدراسة تسلسلات البذور من قاعدة بيانات Pfam 37.0، وأخذت عينات عشوائية من مناطق فرعية بطول 100 حمض أميني، واستخدمت نموذج ماركوف لتوليد تسلسلات بروتينية اصطناعية احتفظت بتوزيع k-mer.تجمع هذه الطريقة بين الفحص المعلوماتي الحيوي والنمذجة الإحصائية، والتي لا تحتفظ فقط بخصائص تسلسل البروتينات الطبيعية، بل تخلق أيضًا عينات تحكم عن طريق إدخال متغيرات عشوائية يمكن التحكم فيها.إنه يوفر مجموعة بيانات مبتكرة تجمع بين الخصائص الطبيعية والميزات المصممة بشكل اصطناعي للتحليل اللاحق.
في تحليل تضمين نموذج لغة البروتين، استخرج الباحثون ميزات الطبقة المخفية لـ ESM2 وESM3 وProstT5، وأسقطوها في مساحة ثنائية الأبعاد من خلال خوارزمية UMAP بعد حساب متوسط الموضع. من خلال ضبط المعلمات بدقة مثل n_neighbors = 15، يتم تحويل ميزات التسلسل عالية الأبعاد إلى خرائط طوبولوجية بديهية.مع الحفاظ على بنية تشابه التسلسل، فإنه يوفر إطار تصور موحد للمقارنة بين النماذج.وهو يوضح الجمع المتطور بين علم الأحياء الحسابي وتصور البيانات.
خلال مرحلة التحقق التجريبي،قام الباحثون باستنساخ وإعادة تجميع 192 جينًا متداخلًا لتوليد 384 نوعًا مختلفًا من البروتين المحول إطاريًا.تم التحكم في المعلمات الرئيسية بشكل صارم في التجربة: 20 ساعة من الثقافة عند 37 درجة مئوية ضمنت استقرار نظام التعبير عن الإشريكية القولونية، ومخطط إعادة تكوين تدرج هيدروكلوريد الغوانيدين 6M ضمن الطي الصحيح لبروتين الجسم المتضمن. إن هذا التحكم الكمي في العملية بأكملها من التصميم الجزيئي إلى التنقية والتمييز لا يحسن إمكانية تكرار استنتاجات البحث فحسب، بل يوفر أيضًا نموذجًا تجريبيًا موحدًا لهندسة البروتين.

تصميم OLG استنادًا إلى النموذج التوليدي: طريقة تحسين مزامنة التسلسل المتوافقة مع إطارات العمل المتعددة
طورت هذه الدراسة خوارزمية حسابية تعالج بشكل فعال مشكلة قيود مساحة التسلسل الناجمة عن الترابط المتبادل بين إطارات الترميز في تصميم الجينات المتداخلة (OLG)، وحققت تحسينًا متزامنًا لقدرة تكيف تسلسلين بروتينيين.
وعلى مستوى تصميم الخوارزمية، دمجت الدراسة نماذج توليدية مثل EvoDiff-MSA وProteinMPNN.يعتمد الأول على بنية محول MSA ويمكنه إنشاء تسلسلات تصميم تعتمد على محاذاة تسلسلات البروتين المستهدفة المتعددة (MSA) من خلال تدريب هدف الانتشار الانحداري التلقائي؛ يمكن للأخير، باعتباره نموذجًا لتوليد الشرط البنيوي، تصميم تسلسلات بروتينية مقابلة عندما يتم إعطاء بنية ثلاثية الأبعاد. استخدم كلا النموذجين إخفاء الموضع حسب الموضع واستراتيجيات أخذ العينات المقيدة لإنشاء مكتبات تسلسل متداخلة تغطي مجموعة متنوعة من الإزاحات وترتيبات الإطارات.
كما هو موضح في الشكل أ أدناه، اقترحت هذه الدراسة استراتيجية أخذ عينات تكرارية إطارًا بإطار لقيود الطور لخمسة إطارات قراءة متغيرة (+1، +2، -0، -1، و-2).

كما هو موضح في الشكل ب أدناه، من خلال تحليل مصفوفة توافق الأحماض الأمينية للإطار -0، وجد أن هناك متوسط 2.6 خيارًا متوافقًا للأحماض الأمينية في موضع واحد في الإطار المرجعي، مما يشكل 52ⁿ (n هو طول التسلسل) أزواجًا متداخلة محتملة في التسلسل، مما يسلط الضوء على مساحة التصميم الناتجة عن انحطاط الشفرة الجينية. وقد تم تحديد درجات حرية الأطر الأخرى باستخدام تقريب مونت كارلو، كما هو موضح في الشكل ج أدناه. وتظهر النتائج أن الإطارين +1 و-1 يتمتعان بدرجات حرية أعلى (حوالي 2.8 و2.9 على التوالي)، في حين أن الإطار -2 يتمتع بدرجات حرية محدودة بشكل كبير (حوالي 1.4) بسبب انخفاض كفاءة انحلال الكودون.

أخيرًا، كما هو موضح في الشكل D أدناه، تقوم الخوارزمية بمسح مواضع التسلسل (ترتيب المسح) بشكل منهجي وتحديث مصفوفة احتمالية المفصل بشكل ديناميكي في كل مسح بالاشتراك مع قيود الأحماض الأمينية المجاورة.بعد جولات متعددة من التكرارات، يتم ضمان أن أزواج التسلسل المتداخلة الناتجة تلبي توافق الإطار.يمكن توسيع هذه الاستراتيجية لتشمل الأطر المعقدة ذات إزاحات الطور، مما يؤدي إلى تحسين جودة التصميم من خلال تحيز ترتيب المسح وتوفير القيود الرئيسية لفك التشفير التكراري للنموذج التوليدي.

ما وراء حدود القالب الطبيعي: توليد فعال لـ OLGs الاصطناعية من أزواج البروتين التعسفية
يغطي التصميم التجريبي اتجاهات متعددة، بما في ذلك تقييم تصميم OLG القائم على التماثل، وتحليل الجدوى المتداخلة للهياكل الرئيسية للبروتين عالية الترتيب، ودراسات إمكانية الوصول التطورية لتسلسلات OLG، والتحقق التجريبي.
في تقييم تصميم OLG القائم على التماثل،كما هو موضح في الشكل أ أدناه، اختار فريق البحث موتاز الشيكيمات البكتيري (CM) وعامل بدء الترجمة 1 (IF1) كأهداف، واستخدم نموذج توليد EvoDiff-MSA، واستخدم محاذاة التسلسل المتعددة (MSA) كسياق مشروط لتوليد 3307 تصميم تسلسل متداخل تمامًا من خلال إخفاء الموضع حسب الموضع والعينات المقيدة.
كما هو موضح في الشكل ب أدناه، على الرغم من أن التشابه بين التسلسل المصمم والتسلسل الطبيعي هو 38.9% (CM) و42.3% (IF1) فقط،ومع ذلك، فإن تحليل تضمين نموذج لغة البروتين يظهر أن توزيعه في الفضاء ثنائي الأبعاد يتوافق إلى حد كبير مع التسلسل الطبيعي.ويشير هذا إلى أن هذه التسلسلات المصممة هي أعضاء موثوقة في عائلة البروتين المستهدفة، مما يثبت صحة قدرات تصميم الخوارزمية لعائلات البروتين الطبيعية.

عند استكشاف جدوى تداخل هياكل العمود الفقري للبروتين عالية الترتيب،كما هو موضح في الشكل أ أدناه، استخدم الباحثون نموذج توليد البنية المشروطة لـ ProteinMPNN لتوليد 56250 تصميمًا متداخلًا و33000 تصميمًا غير متداخل لـ 15 بنية سلسلة رئيسية تم إنشاؤها حديثًا (تغطي فئات الطي α وβ والمختلطة). كما هو موضح في الشكل ب أدناه، تظهر بيانات تقييم AlphaFold2 أنكان متوسط قيمة pLDDT للتصميم المتداخل 90.2، وهو قريب من 92.0 للتصميم غير المتداخل.

وكشف التحليل الإضافي أنه، كما هو موضح في الشكل CD أدناه، كان أداء الإطار -2 فقط ضعيفًا بسبب انخفاض كفاءة انحلال الكودون. وأظهر تحليل الشفرة الوراثية العشوائية أن الشفرة الوراثية الطبيعية (SGC) تتمتع بميزة كبيرة في ترميز OLG، وتعمل بشكل جيد باستثناء الإطار -2، ولديها تفضيل تكويني للأحماض الأمينية شديدة التدهور.تم الكشف عن الآلية التي يؤثر بها هيكل SGC على إمكانية تداخل التسلسلات.

في دراسات إمكانية الوصول التطورية،بدأ فريق البحث بتسلسل بروتين بذرة يحتوي على عدد ثابت من الطفرات. كما هو موضح في الشكل التالي GF،وجدت الدراسة أنه حتى في ظل الظروف القاسية لعدم وجود طفرة، لا يزال بإمكان تصميمات 1% تحقيق استقرار هيكلي عالي (pLDDT> 85، TM> 0.7)؛عندما تم استخدام تسلسلات Pfam الطبيعية كآباء، ارتفع معدل النجاح إلى 3%، وكانت هذه النتيجة متوافقة مع التسلسلات العشوائية التي احتفظت بالانحراف التركيبي من الدرجة الأولى. يوضح هذا بوضوح أن البروتينات الطبيعية المحسنة للغاية يمكنها استيعاب البروتينات الجديدة في أطر بديلة دون تغييرات كبيرة في التسلسل، مما يؤكد جدوى OLG على المستوى التطوري.

وفي الجزء النهائي للتحقق التجريبي، أجرى فريق البحث التعبير المؤتلف والوصف البنيوي على 192 تسلسلًا متداخلًا. وتظهر النتائج أنه كما هو موضح في الشكل ب،تم التعبير عن البروتينات الفردية لـ 54% بنجاح، وكان لدى معظمها الهياكل الثانوية المتوقعة والاستقرار الحراري العالي.

وعلاوة على ذلك، وكما هو موضح في الشكل DF أدناه، فإن معدل النجاح يختلف اعتمادًا على محتوى البنية الثانوية للبروتين، حيث تتمتع البروتينات الحلزونية α بأعلى معدل نجاح. علاوة على ذلك، تم تنقية الأزواج المتداخلة من 31% بنجاح، ولم يؤثر نجاح إطار عمل واحد على نجاح الإطار الآخر.وتدعم هذه النتائج أيضًا إمكانية التنفيذ العالية ومعدل التحقق التجريبي لتسلسلات OLG، مما يدل على فعالية الخوارزمية في تصميم بروتينات متداخلة وظيفية ومستقرة بنيويًا.

الاستكشاف الرائد في مجال البيولوجيا التركيبية وتطبيقات هندسة OLG يتعمق تدريجيًا
في مجال علم الأحياء الاصطناعي، تشارك فرق البحث والشركات في العديد من أنحاء العالم في استكشاف متعمق للتطبيقات الهندسية للجينات المتداخلة (OLGs).
على سبيل المثال، حققت مجموعة البحث التابعة لـ Zhu Ting من جامعة Tsinghua تقدمًا كبيرًا في دراسة الأنظمة البيولوجية المرآة ونجحت في تحقيق التركيب الكيميائي الكامل لبوليميراز الحمض النووي Pfu المرآة.وهذا لا يجعل تجميع الحمض النووي المرآوي بطول كيلو قاعدة حقيقة واقعة فحسب، بل ويطور أيضًا تقنية تخزين المعلومات استنادًا إلى الحمض النووي المرآوي.تستخدم هذه التقنية استراتيجية ترميز الجينات المرآة لتوفير فكرة جديدة للتراكب الوظيفي ثنائي الاتجاه لـ OLG. عندما يحمل الهيكل الحلزوني المزدوج للحمض النووي المرآتي كل من المعلومات الوراثية الطبيعية والمراآتية، يتم تحسين استخدام مساحة التسلسل بشكل كبير، مما يوفر أساسًا مهمًا للتصميم المدمج للجينومات الاصطناعية.
* رابط الورقة:https://www.nature.com/articles/s41587-021-00969-6
بالإضافة إلى ذلك، قام فريق كريستوفر فويجت في معهد ماساتشوستس للتكنولوجيا بتطوير منصة بيولوجيا اصطناعية تعتمد على تصميم الدائرة الجينية. وقد نجحوا في تحقيق التجميع المعياري للمسارات الأيضية من خلال إعادة بناء المنطق التنظيمي لمجموعات الجينات بدائية النواة. يتوافق هذا المسار التقني بشكل وثيق مع فلسفة التصميم الخاصة بشركة OLG.عندما تشكل الجينات الوظيفية المتعددة وحدة وراثية مدمجة من خلال تسلسلات متداخلة، فإن هذا لا يقلل من التكرار في الجينوم فحسب، بل يحسن أيضًا استقرار النظام من خلال التعبير المنسق.على سبيل المثال، اعتمدت مجموعة الجينات المثبتة للنيتروجين الاصطناعي التي صممها الفريق استراتيجية OLG لضغط تسلسلات الترميز للعديد من الإنزيمات الرئيسية في نفس منطقة الحمض النووي، مما يقلل بشكل كبير من العبء الأيضي للخلايا المضيفة مع ضمان الكفاءة التحفيزية.
* رابط الورقة:https://www.nature.com/articles/s41467-022-33272-2
ومن الجدير بالذكر أن هذه الدراسات لا تكشف فقط عن وجود OLG على نطاق واسع في التطور الطبيعي، بل وتؤكد أيضًا جدواها البيوفيزيائية من خلال الوسائل الهندسية. في الدراسة المقدمة في هذه المقالة، استخدم فريق ديفيد بيكر نموذج التعلم العميق لتصميم OLGs الاصطناعية، والتي أظهرت استقرارًا هيكليًا مماثلًا لاستقرار التسلسلات الطبيعية في عمليات المحاكاة الحاسوبية. إن معدل النجاح المرتفع للتحقق التجريبي يوضح التوافق البيولوجي للترميز المتداخل. إن هذه الحلقة المغلقة الكاملة من البحث الأساسي إلى التحول التطبيقي تعمل على إعادة تشكيل منطق تصميم علم الأحياء الاصطناعي، ومن المتوقع أن تحقق اختراقات جديدة في العديد من المجالات مثل تطوير الأدوية المبتكرة، والتشخيص الدقيق، وعلاج الخلايا.
مراجع:
1.https://www.tsinghua.edu.cn/info/1181/86148.htm
2.https://tech.huanqiu.com/article/9CaKrnJUV0x
3.https://news.bioon.com/article/4161e88572ad.html