دعمًا لتوليد البروتين/طيه/طيه العكسي، اقترحت جامعة هونان/جامعة الأكاديمية الصينية للعلوم/بايت دانس نموذج APM لتحقيق تصميم الذرات بالكامل وتحسين الوظيفة

بصفتها المنفذ الرئيسي للأنشطة الحيوية، غالبًا ما تؤدي البروتينات وظائفها على شكل معقدات متعددة السلاسل. بدءًا من التعرف على الأجسام المضادة والمستضدات، ووصولًا إلى ارتباط الإنزيم بالركيزة، يُعد التفاعل الدقيق بين البروتينات متعددة السلاسل جوهر فهم آلية الحياة.مع ذلك، يُظهر مجال نمذجة البروتينات المُعتمد على الذكاء الاصطناعي حاليًا "انحيازًا كبيرًا للسلسلة المفردة". على الرغم من أن نماذج مثل AlphaFold وسلسلة ESM قد أحرزت تقدمًا هائلاً في طي وتصميم البروتينات المفردة السلسلة، إلا أن نمذجة المُركبات متعددة السلاسل لا تزال في بداياتها.
تعتمد الطرق الحالية لمعالجة البروتينات متعددة السلاسل بشكل عام على استراتيجية "اتصال التسلسل الزائف"، مما يجبر السلاسل المتعددة على التعامل معها كسلاسل مفردة.تُقيّد هذه الطريقة بشدة التعبير الطبيعي للتفاعلات بين السلاسل - ففي المُركّبات البيولوجية الحقيقية، لا يُمكن نمذجة التفاعلات على المستوى الذري بين المواضع المكانية للسلاسل وواجهة الارتباط (مثل الروابط الهيدروجينية والتفاعلات الكارهة للماء) بدقة من خلال الروابط الخطية. إضافةً إلى ذلك، يواجه توليد هياكل كاملة الذرات تحديين: التكوين المُعقّد للسلاسل الجانبية للأحماض الأمينية، والاعتماد القوي على بنية التسلسل، مما يجعل التصميم المُبتكر للمُركّبات متعددة السلاسل مُشكلةً صعبةً في هذا المجال.
ولسد هذه الفجوة البحثية، اقترح فريق جامعة هونان وجامعة الأكاديمية الصينية للعلوم وByteDance Seed نموذج APM (نموذج توليد البروتين الذري بالكامل)، وهو نموذج توليد البروتين الذري بالكامل مصمم خصيصًا لمجمعات البروتين متعددة السلاسل. لا يمكن لـ APM توليد مجمعات متعددة السلاسل ذات هياكل ذرية بالكامل بشكل مباشر فحسب، بل يدعم أيضًا المهام الأساسية مثل الطي والطي العكسي، ويظهر أداءً ممتازًا في تصميم البروتينات الوظيفية مثل الأجسام المضادة والببتيدات.
وقد تم اختيار نتائج البحث لمؤتمر ICML 2025 تحت عنوان "نموذج توليدي لجميع الذرات لتصميم المجمعات البروتينية".
أبرز الأبحاث:
* النمذجة الأصلية متعددة السلاسل: التخلي عن اتصالات التسلسل الزائفة والتعلم المباشر للتفاعلات على المستوى الذري بين التوزيع المكاني المستقل للسلاسل المتعددة وواجهة الربط؛
* تحسين تمثيل جميع الذرات: تحقيق التوازن بين كفاءة الحساب والتفاصيل البنيوية، وتحقيق توليد البنية على المستوى الذري من خلال التمثيل المشترك لنوع الأحماض الأمينية والإطار الأساسي وزاوية الالتواء في السلسلة الجانبية؛
* تعزيز التبعية بين التسلسل والبنية: الحفاظ على الارتباط العميق بين التسلسل والبنية من خلال فصل عملية الضوضاء وتدريب المهمة ثنائية الاتجاه (الطي / الفتح).

عنوان الورقة:
قم بمتابعة الحساب الرسمي ورد "APM" للحصول على ملف PDF كاملمجموعة بيانات توليد البروتين APM:
مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
مجموعة البيانات: عينات غنية من سلسلة واحدة إلى سلاسل متعددة
يتم تدريب APM على أساس مجموعة بيانات بروتينية متعددة المصادر تم إنشاؤها بعناية والتي تدمج معلومات البنية والتسلسل للبروتينات أحادية السلسلة ومتعددة السلسلة، مما يوفر مواد تعليمية غنية للنموذج.
تُوفر مجموعة البيانات أحادية السلسلة أساسًا ثريًا للنمذجة داخل السلسلة من خلال دمج مصادر متعددة وتصفية الجودة. تحتوي على 187,494 عينة إجمالًا، تغطي مجموعة واسعة من أنواع البروتينات والفئات الوظيفية. وتأتي بياناتها بشكل رئيسي من ثلاث قواعد بيانات موثوقة:
* قاعدة بيانات PDB: بعد عملية معالجة البيانات MultiFlow، تم فحص 18684 عينة؛
* قاعدة بيانات Swiss-Prot: تم اختيار الهياكل عالية الجودة مع pLDDT>85، وتم الحصول على 140769 عينة؛
* قاعدة بيانات AFDB: باستخدام معايير فحص أكثر صرامة، تم الاحتفاظ بالعينات التي تحتوي على pLDDT>95، بإجمالي 28041 عينة.
تحتوي مجموعة بيانات البروتينات متعددة السلاسل على 11,620 عينة، تغطي مُركّبات بروتينية من 2 إلى 6 سلاسل، مما يُوفر دعمًا أساسيًا للبيانات في نمذجة البروتينات متعددة السلاسل. تأتي بيانات البروتينات متعددة السلاسل من بيانات التجميع البيولوجي لقاعدة بيانات البروتينات (التجمعات البيولوجية). لتجنب تسرب المعلومات في المهام اللاحقة، استبعد فريق البحث ثلاثة أنواع من العينات: العينات الموجودة في قاعدة بيانات الأجسام المضادة SAbDab؛ والعينات التي تحتوي على سلاسل بطول أقل من 30 (تُعتبر ببتيدات)؛ والعينات التي يزيد طولها عن 2,048 أو التي تفتقر إلى مُعرّفات المجموعات.
لتحسين قدرة النموذج على التعميم، قام الباحثون بقص عينات السلاسل المتعددة بشكل عشوائي أثناء عملية التدريب: بالنسبة للعينات التي تحتوي على أكثر من 384 بقايا، تم الاحتفاظ بأقرب 384 حمض أميني، مع التركيز على أزواج البقايا عند واجهة الارتباط بين السلاسل.تضمن استراتيجية التقليم هذه أن يتمكن النموذج من التركيز على مناطق الربط الرئيسية مع تجنب مشكلات تجاوز سعة الذاكرة.بالإضافة إلى ذلك، قام الباحثون بدمج بيانات السلسلة المفردة والمتعددة بشكل متناسب، مستغلين ثراء بيانات السلسلة المفردة لتحسين قدرات النمذجة داخل السلسلة. يُرفق بكل موقع أخذ عينات بيانات وصفية غنية، تشمل الموقع الجغرافي (موقع التفاعل بين السلاسل)، والخصائص الهيكلية (مثل نوع البنية الثانوية)، وخصائص التسلسل (نوع الأحماض الأمينية ودرجة الحفظ). توفر هذه المعلومات أدلة متعددة الأبعاد للنموذج لفهم العلاقة بين التسلسل والبنية والوظيفة.
مجموعة بيانات توليد البروتين APM:
هندسة النموذج: إطار عمل تعاوني لتوليد الذرات بالكامل من ثلاث وحدات
يتكون الهيكل الأساسي لـ APM من ثلاث وحدات ذات وظائف واضحة: وحدة توليد التسلسل والعمود الفقري (وحدة Seq&BB)، ووحدة توليد السلسلة الجانبية (وحدة السلسلة الجانبية)، ووحدة التكرير.من خلال التصميم المبتكر، يتم تحقيق التوليد الشامل من التسلسل إلى بنية الذرات بالكامل، مع دعم مهام التصميم المختلفة للبروتينات متعددة السلاسل.

وحدة Seq&BB
هذه الوحدة هي أساس APM. تعتمد على أسلوب مطابقة التدفق لتحقيق التوليد المشترك للتسلسل والهيكل الأساسي للبروتين، وتستطيع التعامل مع مهام النمذجة التعاونية للتسلسل والهيكل على مستوى البقايا.بفصل عملية تشويش التسلسل عن البنية، يُقلل الضرر الذي يلحق بعلاقة التبعية بين التسلسل والبنية، وتُنفذ مهام الطي/الطي العكسي باحتمالية 50% لتعزيز تعلم التبعية ثنائي الاتجاه. الابتكار الأساسي للوحدة هو:
* عملية فصل الضوضاء:يُجنّب فصل عمليات ضوضاء التسلسل والبنية تدمير التبعيات بين الوسائط في الطرق التقليدية. تُؤخذ عينات من تسلسل الضوضاء وهيكلها الأساسي بشكل مستقل في مراحل زمنية مختلفة، مما يضمن قدرة النموذج على تعلم التبعيات ثنائية الاتجاه بين التسلسل والبنية.
* مطابقة التدفق SE(3):في ضوء خصائص التحول المكاني للعمود الفقري للبروتين، تم تقديم مطابقة تدفق المجموعة الإقليدية الخاصة ثلاثية الأبعاد (SE(3)) للتعامل مع أجزاء الترجمة والدوران بشكل منفصل.
* التعلم متعدد المهام:كما يدعم مهام التوليد غير المشروط، والتوليد المشروط، والطي، والطي العكسي، ويُحسّن قدرة النموذج على التعميم من خلال تدريب المهام المختلطة. تتضمن دالة الخسارة فقدان مطابقة التدفق وفقدان الاتساق لضمان سلاسة المسار المُولّد.

وحدة السلسلة الجانبية
لتحقيق إنشاء بنية كاملة للذرات، تتنبأ وحدة Sidechain بتكوين السلاسل الجانبية للأحماض الأمينية استنادًا إلى التسلسل والعمود الفقري الناتج عن Seq&BB.

تعتمد الوحدة على الاستراتيجيات التالية:
* زاوية الالتواء تعني:يتم تحديد معلمات هيكل السلسلة الجانبية من خلال زوايا الالتواء في السلسلة الجانبية (ما يصل إلى 4 روابط قابلة للدوران)، مما يحقق التوازن بين الكفاءة الحسابية والتفاصيل على المستوى الذري، وتجنب تعقيد النمذجة المباشرة لإحداثيات جميع الذرات.
* التدريب على مرحلتين:تركز المرحلة الأولى على مهمة تعبئة السلسلة الجانبية وتتعلم توزيع تكوينات السلسلة الجانبية الحقيقية؛ وتتحول المرحلة الثانية إلى إعادة بناء السلاسل الجانبية الحقيقية من الهياكل المتوقعة لضمان إمكانية تطبيق النموذج في سيناريو التوليد.

* تصميم خفيف الوزن:بالمقارنة مع وحدة Seq&BB، تستخدم وحدة Sidechain عددًا أقل من الكتل الهيكلية وأبعادًا مخفية أصغر.
وحدة التحسين
باعتبارها الرابط الأخير لـ APM، تقوم وحدة Refine بدمج مخرجات Seq&BB وSidechain Module، وتحسين التسلسل والعمود الفقري من خلال تصحيح الخسارة، وتقليل الصراعات الذرية وتحسين العقلانية البنيوية.تُستخدم معلومات الذرة الكاملة لتحسين بنية التسلسل والسلسلة الرئيسية، وحل التعارضات الهيكلية، وجعل النتائج الناتجة أقرب إلى البروتين الطبيعي. تُفعّل هذه الوحدة فقط في فترة الجيل المتأخر (t≥0.8) لضمان جودة المدخلات الكافية لدعم التحسين.

الاستنتاج التجريبي: التحقق متعدد الأبعاد من الأداء الرائد لـ APM
يغطي التحقق التجريبي الذي أجرته APM المهام الأساسية ذات السلسلة المفردة، والمهام الأساسية متعددة السلاسل، والتصميم الوظيفي النهائي، والنتائج كلها ممتازة.
مهمة البروتين أحادي السلسلة: قدرات أساسية قابلة للمقارنة بالنماذج المهنية
في مهمة الطي، على مجموعة بيانات قاعدة بيانات البروتين،الانحراف المعياري الجذري لـ APM هو 4.83/2.64،وصلت درجة TM إلى 0.86/0.91، وهو ما يضاهي أداء ESM3 وMultiFlow والنماذج الأخرى؛ في مهمة الطي العكسي، وصل معدل استرداد الأحماض الأمينية (AAR) إلى 50.44%، متجاوزًا 46.58% لـ ProteinMPNN.

بالإضافة إلى ذلك، كما هو موضح في الشكل أدناه، في البروتينات المولدة بشكل غير مشروط بأطوال تتراوح بين 100 و300 بقايا،يصل scTM لـ APM إلى 0.96 (الطول 100)، وينخفض scRMSD إلى 1.80.أفضل بشكل ملحوظ من نماذج التصميم الذري الكامل مثل ESM3 (1.4B) وProtPardelle.

مهام البروتين متعدد السلاسل: الميزة الأساسية للنمذجة الأصلية
في تجارب الطي والكشف،في المركب ذي السلاسل 2-6، يبلغ أداء طي APM 12.6/13.67، وهو أقل من Boltz-1، ولكنه يتفوق عليه بشكل ملحوظ بدون MSA؛ ويصل أداء الطي العكسي scTM إلى 0.85/0.95، وهو قريب من Boltz-1 مع MSA، مما يثبت صحة ارتباط التسلسل بالبنية. تظهر النتائج التجريبية في الشكل أدناه.

ثانيًا،يتمتع المركب متعدد السلسلة بتقارب ارتباط قوي.بأخذ طول السلسلة 50-100 كمثال، تصل طاقة الارتباط ΔG_RAA بعد استرخاء جميع الذرات إلى -112.65/-116.98، وهو أفضل بشكل ملحوظ من Chroma (-83.96/-86.66) وAPM_BB (-114.94/-114.45) باستخدام السلسلة الرئيسية فقط، مما يثبت ضرورة معلومات جميع الذرات لنمذجة التفاعلات بين السلاسل.

تقارب الارتباط بين السلاسل بين المجمعات المولدة
التصميم الوظيفي النهائي: اختراقات في تطبيق الأجسام المضادة والببتيدات
تصميم الأجسام المضادة CDR-H3:في اختبار RAbD المعياري، بلغ معدل الاستجابة (AAR) لـ APM 41.20%، ومتوسط الانحراف المعياري الجذري 2.08، وطاقة الارتباط ΔG 91.64، متجاوزًا بذلك طرقًا مثل dyMEAN وDiffAb. على الرغم من اختلاف تسلسل الجسم المضاد الناتج عن العينة الصفرية اختلافًا كبيرًا عن تسلسل العينة الطبيعية، إلا أن طاقة الارتباط أفضل (ΔG 81.12)، مما يثبت قدرته على الارتباط الشامل.

تصميم الببتيد:في مجموعات بيانات PepBench وLNR، أجرى الباحثون تقييمًا شاملًا لطرق تصميم الببتيد من ثلاثة جوانب رئيسية: الوظيفة، وقابلية الطي، والدقة. كما هو موضح في الشكل أدناه، بلغت طاقة الارتباط ΔG لـ APM (SFT) -19.90، وكانت قيمة ΔG < 0 في عينات 69.34%، وبلغت نسبة DockQ ≥ 0.8 11.29%، متجاوزةً بذلك PPFlow وPepGLAD والطرق الأخرى بكثير، وكان استقرار الطي (pLDDT 60.36، ipTM 0.66) ممتازًا.

التعاون بين الصناعة والبحث والتطوير يقود إلى تحقيق اختراقات في تكنولوجيا توليد البروتين الذري بالكامل
في المجال البيولوجي الرائد لإنتاج البروتين الذري بالكامل، لم تتوقف الأوساط الأكاديمية ومجتمعات الأعمال عن استكشاف هذا المجال، ولا تزال سلسلة من النتائج الرائدة تجذب الانتباه.
وفي العالم الأكاديمي، أظهر مشروع AlphaFold3 الذي أطلقه فريق DeepMind قدرات قوية في مجال توليد البروتين بجميع الذرات من خلال دمج المعلومات البنيوية متعددة المقاييس مع بيانات التسلسل التطوري.تم تحقيق نمذجة دقيقة لأنماط طي البروتين المعقدة،خاصةً في مهمة توليد معقدات ذرية كاملة تحتوي على عوامل مساعدة وأيونات معدنية، فقد تحسنت دقة البنية وعقلانية الطاقة بشكل ملحوظ مقارنةً بالطرق التقليدية. يتخذ ESM-IF1، الذي طوره فريق بحثي من جامعة ستانفورد، نهجًا مختلفًا. فهو يعتمد على نموذج طي ضمني مُدرّب ببيانات تسلسل تطوري ضخمة، ويمكنه توليد هياكل بروتينية ذرية كاملة ذات خصائص تكوينية طبيعية مباشرةً، ويؤدي أداءً متميزًا في البناء الدقيق للمراكز النشطة للإنزيمات.
ينشط مجتمع الأعمال أيضًا في هذا المجال، معززًا التطبيقات الصناعية بالابتكار التكنولوجي. أصدرت شركة بكين بيو-جيومتري للتكنولوجيا الحيوية المحدودة أول نموذج بروتيني ذري كامل السيناريوهات في العالم - GeoFlow V2، الذي بنى إطارًا متكاملًا لتوليد الانتشار، قادر على تحقيق تنظيم دقيق لذرات البروتين. في تصميم الذرات الكاملة لمناطق CDR للأجسام المضادة،يمكنه تحسين التقارب والاستقرار في نفس الوقت، مما يحسن بشكل كبير كفاءة تطوير الأدوية.طورت شركة إنسيليكو ميديسن، وهي شركة أمريكية للتكنولوجيا الحيوية، نظامًا لتوليد البروتين يركز على تصميم بروتينات مستهدفة للأدوية. ويمكن لاستراتيجية توليد البروتين متعددة القيود التي يعتمدها النظام تحسين مواقع الارتباط بين البروتينات والأدوية ذات الجزيئات الصغيرة بشكل مباشر، مع ضمان عقلانية البنية الذرية، مما يوفر أساسًا متينًا لفحص الأدوية المرشحة بكفاءة.
هذه الإنجازات النظرية في الأوساط الأكاديمية والابتكارات التطبيقية في مجتمع الأعمال،وسوف نعمل معًا على دفع تكنولوجيا توليد البروتين الذري بالكامل من المختبر إلى الممارسة الصناعية، وتوفير الدعم الأساسي للاختراقات في تطوير الأدوية الدقيقة، وتصميم المحفزات الحيوية الجديدة، وعلم الأحياء الاصطناعي، ونأمل أن نخلق قيمة هائلة في علاج الأمراض والتصنيع الحيوي في المستقبل.
روابط مرجعية:
1.https://mp.weixin.qq.com/s/a0bl9ek90t_-y8wy69Yu6Q
2.https://mp.weixin.qq.com/s/P-5o-R1qZY52Pq1yK5j6cQ