HyperAI

حققت شركة NVIDIA تقدمًا كبيرًا في تصميم البروتين على المستوى الذري، حيث تمكنت من توليد بروتينات تصل إلى 800 بقايا بدقة عالية

特色图像

من المعروف أن تصميم بروتينات جديدة ذات هياكل ووظائف محددة ينطوي على إمكانات تطبيقية واسعة في مجالات عديدة، مثل تطوير الأدوية والهندسة الحيوية. إلا أن تحقيق هذا الهدف ليس بالأمر السهل، لا سيما في رصد العلاقة بين تسلسل البروتين وبنيته، وهو ما كان دائمًا تحديًا كبيرًا في تصميم البروتينات من الصفر.

في الماضي، كانت معظم الطرق تميل إلى تصميم تسلسل البروتين وبنيته بشكل منفصل.على سبيل المثال، يُمكن توليد التسلسل أولًا ثم طيّه، أو تصميم الهيكل الأساسي أولًا ثم تحديد التسلسل. مع ذلك، لا يزال من الصعب جدًا نمذجة التوزيع المشترك لتسلسل البروتين والبنية الذرية بدقة لتحقيق تحكم دقيق في المواقع الوظيفية وإكمال مهام تصميم البروتين الرئيسية، مثل تصميم سقالة الزخارف الذرية. هذا لا يتطلب فقط التعامل مع التسلسلات المنفصلة والإحداثيات المستمرة، بل يتطلب أيضًا التعامل مع مشكلة تغير أبعاد السلسلة الجانبية مع التسلسل.

وفي هذا السياق،واقترح فريق البحث التابع لشركة NVIDIA وMila، معهد كيبيك للذكاء الاصطناعي في كندا، تقنية La-Proteina.هذه طريقة لتصميم بروتين على المستوى الذري، تعتمد على مطابقة تدفق الجهد الجزئي. تجمع هذه الطريقة بفعالية بين نمذجة العمود الفقري الصريح وتمثيل الجهد الثابت الحجم لكل بقايا، وذلك لالتقاط معلومات التسلسل والسلسلة الجانبية الذرية، مما يُسهم في حل التحدي الرئيسي المتمثل في التباين البعدي لتمثيل السلسلة الجانبية الصريح في توليد البروتين، ويُحقق إنجازات جديدة في مجال تصميم البروتينات.

وقد تم نشر نتائج البحث ذات الصلة على arXiv تحت عنوان "La-Proteina: توليد البروتين الذري عبر مطابقة التدفق الكامن جزئيًا".

أبرز الأبحاث:

* يُقترح إطار عمل لمطابقة التدفق الضمني جزئيًا، La-Proteina، مصمم لتوليد تسلسلات بروتينية وهياكل ذرية كاملة بشكل مشترك. يجمع هذا الإطار بفعالية بين نمذجة السلسلة الرئيسية الصريحة وتمثيل ضمني ثابت الحجم لكل بقايا، وذلك لالتقاط كل من التسلسل والسلاسل الجانبية على المستوى الذري.

* في تجارب معيارية واسعة النطاق، حققت La-Proteina أداء SOTA في توليد البروتين غير المشروط، القادر على توليد بروتينات متنوعة وقابلة للتصميم المشترك وصالحة هيكليًا على نطاق ذري كامل يصل إلى 800 بقايا.

* نجحت الدراسة في تطبيق La-Proteina على تصميم سقالة الزخارف على المستوى الذري المفهرس وغير المفهرس، وهما مهمتان مهمتان في تصميم البروتين المشروط، وكلاهما أثبت أن النموذج متفوق على المولدات الذرية السابقة.

عنوان الورقة:

https://go.hyper.ai/3csT5

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://go.hyper.ai/owxf6

مجموعة البيانات: تُستخدم لتدريب النماذج غير المشروطة، بالإضافة إلى ميزات ووظائف بيانات البروتين

استخدمت هذه الدراسة مجموعتين من البيانات لتدريب النماذج غير المشروطة:

المجموعة الأولى هي مجموعة بيانات AFDB المجمعة بواسطة Foldseek، والتي تم استخلاصها من فحص وتجميع قاعدة بيانات AlphaFold (AFDB).يجمع التجميع بين معلومات التسلسل والمعلومات البنيوية، مع مجموعة أولية تضم حوالي 3 ملايين عينة فريدة، تم تحسينها باستخدام معايير متعددة: متوسط درجة pLDDT لا يقل عن 80، وطول بروتين يتراوح بين 32 و512 بقايا، ونسبة لف أقل من 50%، وعدد بقايا لف متتالية لا يزيد عن 20 بقايا. كان وجود طيات بيتا ضروريًا بشكل خاص لتصحيح انخفاض محتوى طيات بيتا في البروتينات المُولّدة بالنموذج.وأخيراً، تم الحصول على حوالي 550 ألف عينة بروتينية.تم فحص مجموعة البيانات هذه بعناية لجعل البروتينات التي يولدها النموذج أكثر توازناً في الميزات البنيوية، وخاصة تحسين محتوى β-fold.

الجزء الثاني هو مجموعة فرعية من AFDB مخصصة للتدريب على التسلسل الطويل.قام الباحثون بفحص عينات من AFDB بمتوسط pLDDT لا يقل عن 70 وطول يتراوح بين 384 و 896.بعد التجميع، تم الحصول على أكثر من 4 ملايين مجموعة للتدريب.من خلال التركيز على عينات البروتين الأطول، فإنه يلبي احتياجات التدريب التسلسلي الطويل.

بالإضافة إلى ذلك، تحتوي بيانات البروتين نفسها على معلومات التسلسل (20 نوعًا من البقايا) والبنية ثلاثية الأبعاد، والتي تُخزَّن بشكل موحد بمساعدة تمثيل Atom37. يُحدِّد تمثيل Atom37 مجموعة فرعية موحدة من 37 ذرة محتملة لكل بقايا. يمكن تخزين بنية البروتين المكونة من بقايا L كموتر شكلي [L، 37، 3]، وتُحدَّد مجموعات الإحداثيات الفرعية ذات الصلة وفقًا لنوع كل بقايا.

تتميز طريقة التقييس هذه بتوفيرها طريقة موحدة لتخزين وتمثيل المعلومات الهيكلية لمختلف البقايا، مما يُرسي الأساس للنموذج لمعالجة المعلومات الهيكلية لمختلف البقايا بشكل موحد. تُوفر خصائص البيانات واسعة النطاق لقاعدة بيانات AFDB عينات غنية للنموذج، مما يُساعده على تعلم نطاق أوسع من تسلسلات البروتينات والخصائص الهيكلية، وتحسين الأداء وقدرات التعميم. ومن خلال التدريب والتجارب على هذه البيانات، يُمكن للنماذج ذات الصلة تحديد العلاقة بين تسلسل البروتين وبنيته بشكل أفضل، وتحقيق تصميم أكثر دقة.

La-Proteina: هندسة مبتكرة وآلية تدريب لنموذج تصميم البروتين على المستوى الذري

لا-بروتينا هو نموذج مبتكر لتصميم البروتينات على المستوى الذري. يتمحور تصميمه الأساسي حول "التمثيل الضمني الجزئي"، ويهدف إلى حل التحديات المعقدة في توليد هياكل كاملة على المستوى الذري.

على مستوى التصميم، مع الأخذ في الاعتبار التحدي المتمثل في إنشاء هياكل كاملة الذرات مع الأخذ في الاعتبار العمود الفقري واسع النطاق وأنواع الأحماض الأمينية والسلاسل الجانبية (تختلف أبعاد السلسلة الجانبية باختلاف الأحماض الأمينية)،يقترح La-Proteina ترميز تفاصيل المستوى الذري ونوع البقايا لكل بقايا في مساحة كامنة مستمرة بطول ثابت مع الحفاظ على نمذجة العمود الفقري الصريحة من خلال إحداثيات الكربون ألفا.

يُحقق هذا التصميم مزايا متعددة، فهو لا يتجنب فقط صعوبة نمذجة التصنيف المستمر المختلط في مُكوّن التوليد الرئيسي للنموذج، مما يسمح لطريقة مطابقة التدفق المستمر الكامل بتوليد متغيرات مخفية بكفاءة، بل يُمكن أيضًا أن يستند إلى تطور نمذجة السلسلة الرئيسية عالية الأداء. في الوقت نفسه، تُتيح نمذجة السلسلة الرئيسية الصريحة تحديد جداول توليد مُختلفة للهيكل الأساسي العالمي للكربون ألفا وتفاصيل المستوى الذري للبقايا، وهو ما يُمثل مفتاح الأداء العالي، ويُحسّن أيضًا قابلية التوسع، مما يُتيح توسيع النموذج ليشمل بروتينات كبيرة تصل إلى 800 بقايا. هذا النهج الهجين هو السبب الرئيسي لتفوقه على إطار النمذجة الضمني بالكامل.

من بنية التكوين كما هو موضح في الشكل أدناه،يتكون جوهر La-Proteina من ثلاث شبكات عصبية: المشفر، وفك التشفير، ومزيل الضوضاء.تتشارك جميع الثلاثة في بنية المحول الأساسية التي تعتمد على آلية الاهتمام المتحيز.

من بينها، يكون المُرمِّز مسؤولاً عن ربط بروتين الإدخال (الذي يحتوي على معلومات التسلسل والبنية) بالمتغيرات الكامنة. يغطي تمثيله التسلسلي الأولي إحداثيات الذرات الأصلية، وزوايا التواء السلسلة الجانبية والعمود الفقري، وأنواع البقايا، بينما يتضمن تمثيل الزوج الأولي الفصل النسبي للتسلسل، والمسافة الزوجية، والاتجاه النسبي بين البقايا؛ أما مُفكِّك التشفير، فيتولى مسؤولية إعادة بناء البروتين كاملاً من المتغيرات الكامنة وإحداثيات ذرة الكربون ألفا، ومعالجة المتغيرات الكامنة ثمانية الأبعاد وإحداثيات ذرة الكربون ألفا لكل بقايا؛ وتُستخدم شبكة مزيل الضوضاء للتنبؤ بحقل السرعة الذي ينقل العينات من توزيع غاوسي المرجعي القياسي إلى توزيع البيانات المستهدفة، ويحدد بشكل مباشر زمن الاستيفاء في كتلة المحول.

تكوين لا بروتينا

من حيث أساليب التدريب،تستخدم La-Proteina استراتيجية تدريب مكونة من مرحلتين.

المرحلة الأولى تُدرّب مُرمِّزًا ذاتيًا متغيرًا شرطيًا (VAE): يُعيِّن المُرمِّز البروتين المُدخل إلى مُتغيرات كامنة، ويُعيد مُفكِّك التشفير بناء البروتين بناءً على المُتغيرات الكامنة وإحداثيات ذرات الكربون ألفا. يُحسَّن مُرمِّز VAE بالكامل عن طريق تعظيم الحد الأدنى للأدلة المُرجَّحة بيتا (ELBO). بالنسبة لخيارات النمذجة المذكورة أعلاه، يُمكن تبسيط مُصطلح إعادة البناء إلى فقدان الإنتروبيا المُتبادَلة للتسلسل وفقدان L2 التربيعي للبنية.

تُحسّن المرحلة الثانية نموذج مطابقة التدفق لتقريب التوزيع المستهدف. تُدرّب شبكة مُزيل الضوضاء بتقليل هدف مطابقة التدفق الشرطي (CFM). يُعدّ استخدام وقتي استيفاء منفصلين tx وtz التصميمَ الرئيسي لهذه المرحلة. يُتيح هذا الإعداد جداول تكامل مختلفة لإحداثيات ذرات الكربون ألفا والمتغيرات الكامنة أثناء الاستدلال، مما يُحسّن أداء النموذج بشكل فعّال.

ومن خلال هذا التصميم والتدريب، تتمكن La-Proteina من تعلم التوزيع المشترك لتسلسلات البروتين والهياكل الذرية بكفاءة، مما يوفر دعمًا فنيًا قويًا لتصميم البروتين على المستوى الذري.

النتائج التجريبية: تتفوق La-Proteina بهامش كبير في جميع الاختبارات الأربعة

للتحقق من أداء La-Proteina، أجرى فريق البحث سلسلة من التجارب حول اتجاهين رئيسيين: توليد البروتين غير المشروط على مستوى الذرة وتصميم سقالة الزخارف الذرية، مع الأخذ في الاعتبار بشكل شامل أداء النموذج في سيناريوهات مختلفة.

في تجربة إنتاج البروتين غير المشروط على المستوى الذري،كما هو موضح في الشكل أدناه، قارن فريق البحث نوعين مختلفين من بروتين لا-بروتينا (مع وبدون طبقات مضاعفة مثلثة) مع عدة طرق أساسية متاحة للجمهور لتوليد الذرات بالكامل، مثل P (للذرات بالكامل)، وAPM، وPLAID. وشملت مؤشرات التقييم قدرات التصميم التعاوني للذرات بالكامل، والتنوع، والابتكار، وقدرات التصميم القياسية.

تظهر النتائج أن المتغيرين من La-Proteina يتفوقان على جميع الطرق الأساسية من حيث القدرة على التصميم المشترك لجميع الذرات، وسعة التصميم والتنوع، كما أنهما تنافسيان للغاية من حيث الجدة.


قدرة La-Proteina على توليد سلاسل طويلة غير مشروطة

ومن الجدير بالذكر أن La-Proteina، الذي لا يستخدم طبقات الضرب المثلثة، يحقق أداءً متطورًا مع امتلاكه قابلية عالية للتوسع، في حين أن ثاني أفضل أداء لـ P (كل الذرات) لا يمكنه معالجة سوى البروتينات القصيرة بسبب اعتماده على طبقات التحديث المثلثة باهظة التكلفة حسابيًا.

أيضًا،وأظهر فريق البحث أيضًا قابلية La-Proteina للتوسع في توليد هياكل كبيرة مكونة من ذرات فقط.تم تدريب النموذج على مجموعة بيانات AFDB التي تحتوي على ما يقرب من 46 مليون عينة، ويؤدي النموذج أفضل أداء في مهمة توليد البروتينات بطول يزيد عن 500 بقايا، في حين غالبًا ما تواجه طرق خط الأساس الأخرى التي تعتمد على الذرات صعوبة في توليد عينات فعالة في نطاق الطول هذا.

في التحليل البيوفيزيائي، تم استخدام أداة MolProbity لتقييم صحة البناء.وأظهرت النتائج أن البنية الناتجة عن La-Proteina كانت ذات جودة أعلى.النتيجة أفضل بشكل ملحوظ من جميع الطرق الأساسية، والهيكل الناتج أكثر واقعية على المستوى الفيزيائي وأكثر تشابهًا مع البروتين الحقيقي؛ في الوقت نفسه، من خلال تصور توزيع زوايا ثنائية السطوح للسلسلة الجانبية ومقارنتها بمراجع PDB وAFDB، وجد أن، يمكن لـ La-Proteina محاكاة الفضاء التكويني لمتزامرات دوران الأحماض الأمينية بدقة،غالبًا ما تنحرف طرق الأساس عن المرجع، أو تفتقد الأنماط أو تملأ مناطق الزاوية غير الواقعية.


يعتبر La-Proteina أفضل من خط الأساس الحالي لتوليد الذرات بالكامل
لديه صلاحية بناء أعلى

في تجربة تصميم سقالة الزخارف الذرية،قام فريق البحث بتقييم أداء النموذج في مهمة تصميم سقالة الزخرفة الذرية، والتي تتطلب من النموذج توليد بنية بروتينية تدعم الزخرفة بدقة بناءً على البنية الذرية لزخرفة محددة مسبقًا. أُجريت التجارب في أربعة إعدادات تقييم، بما في ذلك تصميم سقالة ذرية كاملة، وتصميم سقالة ذرية متقدم، بالإضافة إلى إصدارات مفهرسة وغير مفهرسة.

وتظهر النتائج أنه في جميع الإعدادات الأربعة،تتفوق La-Proteina بشكل كبير على طريقة خط الأساس الوحيدة القابلة للمقارنة والتي تعتمد على الذرات بالكامل، وهي Protpardelle، وهي قادرة على حل معظم مهام المعايير بنجاح.بالنسبة للزخارف المكونة من 3 أو أكثر من أجزاء البقايا المختلفة، فإن الإصدار غير المفهرس من La-Proteina يؤدي بشكل أفضل من الإصدار المفهرس، ربما لأن تثبيت مواضع أجزاء متعددة يحد من مرونة النموذج لاستكشاف حلول هيكلية مختلفة.

الإنجازات العلمية والممارسات المبتكرة في مجال تصميم البروتين على المستوى الذري

في مجال تصميم البروتينات، حظي توجه أبحاث تصميم البروتينات على المستوى الذري، الذي تمثله شركة لا بروتينا، باهتمام واسع النطاق في الأوساط الأكاديمية ومجتمع الأعمال. وقد حققت العديد من الجامعات والشركات إنجازات علمية مهمة وممارسات مبتكرة في هذا المجال.

في الأوساط الأكاديمية، تعمل بعض فرق البحث على تحسين أداء نماذج توليد البروتين وقابليتها للتوسع. على سبيل المثال، تعاونت شركة NVIDIA مع شركة Mila، ومعهد كيبيك للذكاء الاصطناعي، وجامعة مونتريال، ومعهد ماساتشوستس للتكنولوجيا، لتطوير...تم تدريب Proteina المطوّر على قاعدة بيانات AlphaFold (AFDB) واسعة النطاق.أثبت قابلية التوسع لنموذج قائم على التدفق لتوليد بنية البروتين.

هناك أيضًا بعض الدراسات التي تستخدم نماذج الانتشار في تصميم البروتينات. على سبيل المثال، تُركز مُولِّدات البروتينات المبكرة القائمة على الانتشار، مثل RFDiffusion وChroma، على توليد البنية الأساسية. وقد وسّعت الدراسات اللاحقة نطاق تطبيق نماذج الانتشار في تصميم البروتينات، مثل الانتشار على مُتَعَدِّدات SO(3) وطرق مطابقة التدفق الإقليدي.

تُركز بعض فرق البحث أيضًا على النمذجة المشتركة لتسلسلات البروتينات وبنيتها. على سبيل المثال، يستخدم برنامج ProtComposer، الذي أطلقته NVIDIA ومعهد ماساتشوستس للتكنولوجيا (MIT)، نماذج إحصائية مساعدة وعناصر بدائية ثلاثية الأبعاد لتوليد هياكل بروتينية، بينما تتناول بعض الأعمال هياكل ذرية كاملة من خلال النمذجة المشتركة للهيكل الأساسي للبروتين وتسلسلاته، أو باستخدام نماذج المتغيرات الكامنة. بالإضافة إلى ذلك، طُبقت نماذج لغوية على تصميم البروتينات، حيث تُركز بعض الأساليب على تسلسلات البروتينات، بينما تُرمز أساليب أخرى إلى المعلومات الهيكلية وتُنمذج التسلسلات والهياكل بشكل مشترك.

في عالم الأعمال، تُركز شركة كرادل، وهي شركة هولندية للتكنولوجيا الحيوية، على استخدام الذكاء الاصطناعي لتبسيط عملية تصميم البروتينات. وقد أنشأت مختبرًا تجريبيًا لجمع مليارات تسلسلات البروتينات والبيانات لتدريب نماذج الذكاء الاصطناعي التوليدية الخاصة بها، مما يُسهّل تصميم البروتينات وتحسينها. أما شركة زيرا ثيرابيوتكس، وهي شركة أمريكية مُزوّدة لخدمات الذكاء الاصطناعي في مجال الأدوية، فتلتزم بإنشاء جزيئات مُتكيّفة لدواعي استخدام مُحددة، بفضل مزاياها في أبحاث التعلم الآلي المُتقدمة، وتوليد البيانات على نطاق واسع، وتطوير العلاجات. كما تلتزم بعض الشركات بدمج تقنية تصميم البروتينات مع الذكاء الاصطناعي والتعلم الآلي لتحسين كفاءة ودقة تصميم البروتينات.

لقد وفرت الإنجازات البحثية العلمية التي حققتها هذه الجامعات، والممارسات المبتكرة للشركات، خبرةً غنيةً ودعمًا فنيًا لتطوير تصميم البروتينات، وعززت التطور المستمر لهذا المجال. ومع التقدم التكنولوجي المستمر، يُعتقد أن تصميم البروتينات سيلعب دورًا هامًا في مجالات أخرى مستقبلًا.

المقالات المرجعية:
1.https://mp.weixin.qq.com/s/7r69S3XpNMjemo3EiXzNeQ
2.https://mp.weixin.qq.com/s/DrZEdsb1SqSSkv_hbrp3TA