HyperAI

تم اختياره لـ NeurIPS 2024! اقترحت جامعة ويستليك نموذج الطي الجزيئي المعكوس العالمي UniIF، والذي يكمل AlphaFold 3.

特色图像

يلعب الطي العكسي الجزيئي دورًا رئيسيًا في تصميم الأدوية والمواد، مما يسمح للعلماء بتركيب جزيئات جديدة بهياكل مثالية. ركزت الأبحاث السابقة في الغالب على الطي العكسي للجزيئات الكبيرة أو الجزيئات الصغيرة، ولكن تم إيلاء القليل من الاهتمام للطي العكسي للجزيئات العامة.

هناك ثلاثة تحديات رئيسية في بناء نموذج عام موحد:① فرق الوحدة: تستخدم الجزيئات الكبيرة عمومًا بنى مجهرية محددة مسبقًا كوحدات أساسية، مثل الأحماض الأمينية للبروتينات والنيوكليوتيدات للحمض النووي الريبي (RNA)؛ بينما تستخدم الجزيئات الصغيرة الذرات كوحدات أساسية المستخدمة، مثل المسافة والزاوية ومنتج الموتر، وهناك نقص في طرق التوصيف الموحدة؛ ③ مقياس النظام: تسمح الجزيئات الصغيرة لآليات الاهتمام العالمية بتعلم التبعيات طويلة المدى، لكن هذا غالبًا لا يعمل على الجزيئات الكبيرة.

لمواجهة التحديات المذكورة أعلاه واستكمال التقدم المحرز في التنبؤ بالبنية الجزيئية بواسطة RoseTTAFold All-Atom وAlphaFold 3،اقترح فريق من مركز أبحاث الصناعة المستقبلية بجامعة ويستليك نموذجًا موحدًا، UniIF، للطي العكسي لجميع الجزيئات.أجرى الباحثون تجارب شاملة على مهام متعددة مثل تصميم البروتين، وتصميم الحمض النووي الريبي (RNA)، وتصميم المواد لإثبات فعالية UniIF. أظهرت النتائج أن UniIF يحقق أداءً متطورًا في جميع المهام.

البحث ذو الصلة يحمل عنوان "UniIF: Unified Molecule Inverse Folding" وتم اختياره للمشاركة في المؤتمر الأول NeurIPS 2024.

أبرز الأبحاث:

* يوفر النموذج الموحد UniIF الذي اقترحته الدراسة حلاً متعدد الاستخدامات وفعالاً للطي العكسي الجزيئي العام

* تم توحيد هذا النموذج من مستويين: على مستوى البيانات، تم اقتراح نموذج بيانات مخطط كتلة موحد لجميع الجزيئات، بما في ذلك بناء أنظمة الإحداثيات المحلية وتهيئة الميزات الهندسية على مستوى النموذج، وشبكة انتباه الكتلة الهندسية تم تقديمه لالتقاط خصائص التفاعل ثلاثي الأبعاد لجميع الجزيئات

* أثبت الباحثون أن الطريقة المقترحة تفوقت على أحدث الأساليب في ثلاث مهام رئيسية: تصميم البروتين، وتصميم الحمض النووي الريبي (RNA)، وتصميم المواد، وهو إنجاز يمكن أن يكون له تأثير إيجابي على التعلم الآلي، واكتشاف الأدوية، والمواد. المجتمعات العلمية

عنوان الورقة:
https://arxiv.org/abs/2405.18968 

اتبع الحساب الرسمي وقم بالرد على "Molecular Reverse Folding" في الخلفية للحصول على ملف PDF الكامل

يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:

https://github.com/hyperai/awesome-ai4s

مجموعة البيانات: حدد مجموعة البيانات المقابلة لإجراء ثلاث تجارب مهمة

في مهام تصميم البروتين،يقوم الباحثون بتقييم UniIF على مجموعة بيانات CATH4.3. تم تقسيم مجموعة البيانات حسب كود تصنيف طوبولوجيا CATH، مما أدى إلى 16,631 عينة تدريب، و1,516 عينة تحقق، و1,864 عينة اختبار.

ومن أجل تقييم القدرة على التعميم، اعتمد الباحثون استراتيجية تقسيم الوقت، مع الأخذ في الاعتبار أن بعض خطوط الأساس تستخدم نماذج ESM2 المدربة مسبقًا، والتي تنطوي على خطر تسرب البيانات. يقوم تقييم تقسيم الوقت بتعيين البيانات قبل تاريخ محدد لمجموعة التدريب والبيانات بعد ذلك التاريخ لمجموعة الاختبار. ولتقييم الهياكل المقسمة زمنيًا، تم استخدام مجموعة بيانات CASP15، التي تحتوي على هياكل بلورية جديدة لم تتم رؤيتها أثناء التدريب؛ ولتقييم التسلسلات المقسمة زمنيًا، تم استخدام مجموعة بيانات NovelPro، التي تحتوي على 30 يومًا قبل 23 نوفمبر 2023. تم التنبؤ بهياكل 76 تسلسلًا بروتينيًا منشورًا بواسطة AlphaFold 2.

في مهمة تصميم الحمض النووي الريبي (RNA)،أجرى الباحثون تجارب الحمض النووي الريبوزي (RNA) على مجموعة بيانات تم جمعها بواسطة RDesign، والتي تحتوي على 2218 بنية ثلاثية للحمض النووي الريبي (RNA)، والتي تم تقسيمها إلى مجموعة تدريب (1774 بنية)، ومجموعة اختبار (223 بنية)، ومجموعة التحقق من الصحة بناءً على تشابهها الهيكلي. مجموعة (221 هيكل). نظرًا لقلة عدد عينات البيانات، أبلغ الباحثون عن متوسط معدل الاسترداد وانحرافه المعياري من 3 عمليات تشغيل مستقلة.

في مهام تصميم المواد،قام الباحثون بتقييم UniIF على مجموعة بيانات CHILI-3K، والتي تتكون من خرائط المواد النانوية المشتقة من أكسيد المعدن الواحد. تتضمن مجموعة البيانات 53 عنصرًا معدنيًا وعنصرًا واحدًا غير معدني (الأكسجين)، بإجمالي 3,180 رسمًا بيانيًا، و6,959,085 عقدة، و49,624,440 حافة.

بنية النموذج: UniIF، نموذج موحد للطي العكسي الجزيئي العام

كما هو موضح أدناه، اقترح الباحثون نموذجًا موحدًا للطي العكسي الجزيئي العام.

① يحول هذا النموذج جميع أنواع الجزيئات (جميع الجزيئات) إلى مخططات كتلة - للجزيئات الكبيرة (الجزيئات الكبيرة)، باستخدام إطار محدد مسبقًا يعتمد على الأحماض الأمينية والنيوكليوتيدات للجزيئات الصغيرة (الجزيئات الصغيرة)، والتعلم من خلال طبقة من إطار GNN المحلي كل كتلة؛


② استخدم المميزات الهندسية لتهيئة ميزات العقدة الهندسية (ميزة العقدة) وميزات الحافة (ميزات الحافة)؛

③ اقترح طبقة انتباه الرسم البياني الكتلي (Block Graph Attention)، والتي على أساسها تم بناء شبكة عصبية للرسم البياني الكتلي (Block Graph Neural Network) لتعلم تمثيلات الكتل التعبيرية؛

④ أخيرًا، تم إثبات أن UniIF يمكنها تحقيق نتائج تنافسية في مجموعة متنوعة من المهام (المهام)، بما في ذلك تصميم البروتين وتصميم الحمض النووي الريبي (RNA) وتصميم المواد.

الشكل: الإطار العام لنموذج UniIF

مخطط كتلة البناء:الخطوة الأولى في بنية النموذج هي تقديم الرسوم البيانية الكتلية لتمثيل جميع أنواع الجزيئات. والمفتاح هو تحويل المجموعات غير المنتظمة من الذرات (أحجام مختلفة) إلى تمثيلات كتلية منتظمة (حجم ثابت). قدم الباحثون تمثيلًا كتليًا قائمًا على الإطار لتوحيد نمذجة جميع الجزيئات، مع كتلة تحتوي على الإطار المتساوي والمتجهات الذاتية الثابتة والإطار المحلي الذي يحتوي على مصفوفة المحور ومتجهات الإزاحة. بالنسبة للجزيئات الكبيرة، يتم تعريف مصفوفة المحور مسبقًا على أساس الأحماض الأمينية والنيوكليوتيدات؛ بالنسبة للجزيئات الصغيرة، نظرًا لأن الجزيئات الصغيرة لا تحتوي على أنماط هيكلية مشتركة مسبقة، يجب تعلم مصفوفة المحور. بالنظر إلى جزيء يحتوي على عدد n من الكتل، استخدم الباحثون خوارزمية kNN لبناء الرسم البياني الكتلي.

الشكل: الوحدات البنائية للجزيئات المختلفة تشتمل وحدات البناء الأساسية على الأحماض الأمينية والنيوكليوتيدات والذرات.

استخراج ميزة خريطة الكتلة:بالنسبة للجزيئات الصغيرة، لا تتوفر أطر محلية محددة مسبقًا، لذلك يحتاج الباحثون إلى تعلم الأطر المحلية لكل ذرة - أي أنه عند وجود جزيء، يستخدمون طبقة من GNN لتهيئة التمثيل الذري، ثم يستخدمون مستخرج السمات الهندسية للتهيئة العقد الهندسية وميزات الحافة.

كتلة وحدة الاهتمام الرسم البياني:قدم الباحثون شبكة انتباه كتلة هندسية، بما في ذلك التفاعل الهندسي، والاهتمام التفاعلي، ووحدات التبعية الافتراضية طويلة المدى، لالتقاط التفاعلات ثلاثية الأبعاد لجميع الجزيئات.

النتائج: يتفوق UniIF على أحدث الأساليب في جميع المهام

أظهر الباحثون فعالية UniIF من خلال مهام الطي العكسي المتعددة ودراسات الاستئصال، بما في ذلك:

* تصميم البروتين (T1): تصميم تسلسل البروتين الذي يمكن طيه في البنية المستهدفة

* تصميم الحمض النووي الريبي (T2): تصميم تسلسل الحمض النووي الريبي (RNA) الذي يمكن طيه في البنية المستهدفة

* تصميم المواد (T3): اكتشف التركيبات المستقرة من هياكل المواد المعروفة

① تصميم البروتين (T1) 

يهدف تصميم البروتين إلى تصميم تسلسلات البروتين التي يمكن طيها في البنية المستهدفة، ويقدم الباحثون النتائج في ظل إعدادات مختلفة (مع وبدون ESM2) ومجموعات بيانات متعددة (CATH4.3، CASP، NovelPro). كما هو موضح في الجدول أدناه: باستخدام نموذج الطي العكسي النقي بدون ESM2، يحقق UniIF أفضل أداء في جميع مجموعات البيانات، مما يدل على فعاليته.

*يتضمن LMDesign وKWDesign ESM2 وStructGNN وGraphTrans وGCA وGVP وAlphaDesign وProteinMPNN وPiFold ولا يتضمنان ESM2؛ 

في CATH4.3، نظرًا لنموذج خط الأساس القوي، كان التحسن العام محدودًا، لكن تقييم تقسيم الوقت يسلط الضوء على مزايا UniIF في القدرة على التعميم، ويتفوق UniIF على خط الأساس القوي PiFold مع عدد أقل من المعلمات القابلة للتعلم. في التقييم المقسم زمنيًا، تتفوق UniIF على جميع خطوط الأساس، بما في ذلك الأساليب المستندة إلى ESM2، بهامش كبير. في NovelPro الذي يحتوي على تسلسلات جديدة، يتفوق UniIF على LMDesign وKWDesign باستخدام ESM2 لتحسين التسلسل -وهذا يدل على أن UniIF يتمتع بقدرة تعميمية فائقة، وهو أمر بالغ الأهمية للتطبيقات العملية.

نتائج تصميم البروتين (يتم عرض أفضل النتائج ودون المستوى الأمثل بالخط العريض ووضع خط تحتها)

②تصميم الحمض النووي الريبي (T2)

الهدف من تصميم الحمض النووي الريبي (RNA) هو تصميم تسلسلات الحمض النووي الريبي (RNA) التي يمكن طيها لتشكل البنية المستهدفة. كما هو موضح في الجدول أدناه، يحقق UniIF أفضل أداء في جميع الحالات، وهو تحسن كبير منذ أن كانت النماذج الأساسية القوية سابقًا مثل PiFold تؤدي أداءً جيدًا فقط في تصميمات البروتين. يُذكر أن،UniIF هو النموذج الأول الذي يحقق أداءً متطورًا في كل من مهام تصميم البروتين والحمض النووي الريبوزي (RNA)، مما يدل على تنوعه وفعاليته.

نتائج الاسترداد لتصميمات الحمض النووي الريبي (RNA) (يتم تحديد أفضل النتائج ودون المستوى الأمثل بالخط العريض ووضع خط تحتها)

③ تصميم المواد (T3)

يعد اكتشاف مجموعات ذرية مستقرة من هياكل مادية معروفة أمرًا بالغ الأهمية لاكتشاف مواد جديدة، لذلك قام الباحثون أيضًا بتقييم أداء UniIF في هذه المهمة الجديدة. كما هو مبين في الجدول أدناه،يتفوق UniIF بشكل ملحوظ على جميع النماذج الأساسية.

الجدول: نتائج تشيلي-3K

④دراسة الحالة

في الصورة أدناه، يظهر الباحثون تسلسلات البروتين والحمض النووي الريبي (RNA) المصممة. بالإضافة إلى ذلك، استخدمت AlphaFold 3 لإعادة طي التسلسلات المصممة إلى هياكل - تمت محاذاة ومقارنة الهياكل الحقيقية (الرمادي)، وهياكل PiFold (الأخضر)، وهياكل UniIF (الوردي). ولاحظ الباحثون،تحقق UniIF تحسينات في كل من معدل الاسترداد وجذر متوسط انحراف التربيع (RMSD)، مما يدل على فعاليتها في مهام الطي العكسي.

الشكل: مثال على التصميم، محاذاة البنية الحقيقية (رمادي)، بنية PiFold (أخضر)، وبنية UniIF (وردي)

ويكمل نموذج UniIF أيضًا AlphaFold 3

لقد حظي التعلم الجزيئي العام باهتمام متزايد في السنوات الأخيرة، ويعد RoseTTAFold All-Atom (RFAA) وAlphaFold 3 نموذجين تمثيليين حققا نجاحًا كبيرًا في هذا الاتجاه.

في 7 مارس 2024، نشر ديفيد بيكر ورقة بحثية بعنوان "النمذجة والتصميم الجزيئي الحيوي المعمم باستخدام RoseTTAFold All-Atom" في مجلة العلوم. قام الفريق بتطوير RoseTTAFold All-Atom (RFAA)، الذي يجمع بين التمثيلات القائمة على بقايا الأحماض الأمينية وقواعد الحمض النووي مع التمثيلات الذرية لجميع المجموعات الأخرى، مما يسمح بتحليل البروتينات والأحماض النووية والجزيئات الصغيرة والمعادن والتسلسل والبنية الكيميائية. يتم نمذجة المكونات المعدلة تساهميًا.

الورق الأصلي:

https://www.science.org/doi/10.1126/science.adl2528

في 9 مايو 2024، نشر ديميس هاسابيس وجون جومبي وآخرون ورقة بحثية بعنوان "التنبؤ الدقيق للبنية للتفاعلات الجزيئية الحيوية مع AlphaFold 3" في مجلة Nature. أطلق البحث AlphaFold 3، وهو أحدث نموذج يمكنه التنبؤ ببنية المجمعات التي تحتوي على جميع الأنواع الجزيئية تقريبًا في بنك بيانات البروتين، بما في ذلك كيفية تجميع الروابط (الجزيئات الصغيرة) والبروتينات والأحماض النووية (DNA وRNA) معًا وتفاعلها مع بعضها البعض، بالإضافة إلى التنبؤ بالتأثيرات الهيكلية لتعديلات ما بعد الترجمة والأيونات على هذه الأنظمة الجزيئية، مما يساعد الباحثين على مراقبة بنية الأنظمة الجزيئية الحيوية بدقة على المستوى الذري.

الورق الأصلي:

https://www.nature.com/articles/s41586-024-07487-w

بإلقاء نظرة فاحصة على النموذجين، يستخدم RFAA مخططات الرابطة الذرية لتمثيل الجزيئات الصغيرة ومخططات إطارية لتمثيل الجزيئات الكبيرة؛ ويستخدم AlphaFold 3 تمثيلًا مزدوج الطبقة، أي التمثيل الذري وتمثيل الملصقات، وهو ما ينطبق على الجميع جزيئات. ويعادل مفهوم العلامة مفهوم الكتلة الموصوف سابقًا، والذي يمثل مجموعة من الذرات، مثل الأحماض الأمينية أو النيوكليوتيدات.

GET وEPT هما نموذجان مقترحان مؤخرًا يعتمدان تمثيل كتلة ينطبق على كل من الجزيئات الصغيرة والكبيرة ويقدمان هيكلًا جديدًا للمحولات المتساوية. على عكس RFAA، الذي يحدد مخططات الرابطة الذرية للجزيئات الصغيرة، يعتمد نموذج UniIF المقدم في هذه المقالة مخططًا كتلة موحدًا لجميع أنواع الجزيئات ولا يتطلب مخططًا للرابطة الذرية علاوة على ذلك، يقدم النموذج أيضًا أساسًا متجهًا لكل منها block، وهو ما يتوافق مع AlphaFold 3. يختلف GET وEPT.

وبما أن التحدي المتمثل في بناء نماذج جزيئية عالمية قد تم حله إلى حد ما،يمكن اعتبار نموذج UniIF مكملاً إضافيًا للتقدم المحرز في اتجاه التنبؤ بالبنية الجزيئية لـ "أسلافه" مثل RoseTTAFold All-Atom وAlphaFold 3.وفي المستقبل، ستساعد النماذج البيولوجية واسعة النطاق والمتكررة باستمرار الباحثين على إعادة فهم العالم البيولوجي وإعادة التفكير في اكتشاف الأدوية، وبالتالي إفادة البشرية جمعاء.

مراجع:

1.https://arxiv.org/abs/2405.18968

2.https://mp.weixin.qq.com/s/8OvxVlUuZZZ2gcepIl5UBw

3.https://www.jiqizhixin.com/articles/2024-03-08-6

4.https://m.thepaper.cn/newsDetail_forward_28984037