HyperAI

AlphaFold يصل إلى مرحلة جديدة في التطبيق! يقترح فريق جامعة كامبريدج استخدام تقنية AlphaFold-Metainference للتنبؤ بدقة بمجموعات بنية البروتين غير المنتظمة

特色图像

منذ ظهور AlphaFold في نهاية عام 2018، شهد مجال التنبؤ ببنية البروتين تغييرات هائلة بدعم من الذكاء الاصطناعي. اليوم، لا يذهل AlphaFold بدقة توقعاته فحسب، بل يقوم أيضًا بتوسيع نطاق توقعاته تدريجيًا في أحدث إصدار. لا عجب أن شي ييغونغ، الأكاديمي في الأكاديمية الصينية للعلوم، علّق بسخاء على الأمر أمام وسائل الإعلام قائلاً: "في رأيي، يُعد هذا أعظم إسهام للذكاء الاصطناعي في مجال العلوم. وهو أيضًا أحد أهم الإنجازات العلمية التي حققتها البشرية في القرن الحادي والعشرين. إنه إنجاز تاريخي بارز في الاستكشاف العلمي للبشرية للعالم الطبيعي".

على الرغم من أن ثورة التنبؤ ببنية البروتين التي تقودها AlphaFold سريعة للغاية، إلا أن هناك بعض القضايا التي لم يتم حلها والتي تقف في الطريق. ومن بين هذه المشكلات، كان البحث في البروتينات غير المنظمة يشكل دائمًا مشكلة صعبة في مجال علوم الحياة. تلعب هذه البروتينات دورًا رئيسيًا في إشارات الخلايا والعمليات التنظيمية ومجموعة متنوعة من الأمراض.ومع ذلك، بسبب تباينها الخاص وديناميكياتها في البنية، لا يمكن تمثيلها ببنية واحدة.ولذلك، فإن أبحاثها لم تحقق تقدماً كبيراً مثل التنبؤ بالهياكل البروتينية المنظمة. لقد أشار نجاح AlphaFold إلى طرق جديدة لحل المشكلات التي يواجهها العلماء.

نشر فريق بحثي من جامعة كامبريدج مؤخرًا دراسة جديدة واقترح طريقة تسمى AlphaFold-Metainference.تستخدم هذه الطريقة الارتباط بين خريطة الخطأ المحاذي المتوقع (PAE) التي تنبأت بها AlphaFold ومصفوفة تغيير المسافة في محاكاة الديناميكيات الجزيئية (MD) لبناء مجموعات هيكلية من البروتينات غير المنظمة والبروتينات التي تحتوي على مناطق غير منظمة.إنه يوفر أفكارًا جديدة للتنبؤ بالهياكل البروتينية غير المنظمة استنادًا إلى أساليب التعلم العميق، كما يعمل أيضًا على توسيع نطاق تطبيق AlphaFold.

وقد تم نشر نتائج البحث ذات الصلة حاليًا في المجلة الأكاديمية الدولية Nature Communications تحت عنوان "التنبؤ بـ AlphaFold للمجموعات البنيوية للبروتينات غير المنظمة".

أبرز الأبحاث:
* اختراق حدود التنبؤ وتحقيق تنبؤ عالي الدقة. وأكدت الدراسة أن AlphaFold يمكنه التنبؤ بدقة بالمسافات بين البقايا حتى بدون تدريبه على بيانات البروتين غير المنظمة.

* ابتكار أساليب التنبؤ وبناء مجموعات البنية. تستخدم هذه الطريقة المسافة التي تنبأ بها AlphaFold كقيد هيكلي، وتجمع بين إطار الاستدلال التلوي ومحاكاة الديناميكيات الجزيئية لبناء مجموعة من هياكل البروتينات غير المنظمة والبروتينات التي تحتوي على مناطق غير منظمة.

* تعميق أساليب التعلم العميق وتوسيع حدود التطبيق. تعمل هذه الطريقة بشكل جيد في التعامل مع البروتينات شديدة الاضطراب والبروتينات غير المنظمة جزئيًا. إن مجموعة البنية المولدة تتوافق بشكل كبير مع البيانات التجريبية مقارنة ببنية AlphaFold واحدة، مما يحل بشكل فعال مشكلة التنبؤ ببنية البروتين غير المنظمة.

عنوان الورقة:

https://www.nature.com/articles/s41467-025-56572-9

يجمع مشروع المصدر المفتوح "awesome-ai4s" أكثر من 200 تفسير لورقة AI4S ويوفر مجموعات بيانات وأدوات ضخمة:

https://github.com/hyperai/awesome-ai4s

مجموعة البيانات: التحقق الدقيق من البيانات متعددة المصادر

من حيث تدريب نماذج التعلم العميق، نظرًا لأن المجموعات البنيوية للبروتينات غير المنظمة منخفضة جدًا من حيث العدد والدقة، ولكن يمكن التنبؤ بالبروتينات غير المنظمة بناءً على المعلومات المتاحة للبروتينات المنظمة، استخدم الباحثون عددًا كبيرًا من الهياكل البروتينية المطوية عالية الدقة في بنك بيانات البروتين (PDB) لتدريب نماذج التعلم العميق.

من حيث مقارنة البيانات التجريبية، من الصعب الحصول على معلومات تجريبية عن المسافات بين البقايا في البروتينات غير المنظمة، وقد تؤثر علامات البيانات نفسها على خصائص المجموعة التكوينية.وللقيام بذلك، استخدم الباحثون بيانات تشتت الأشعة السينية ذات الزاوية الصغيرة (SAXS) وقياسات انتشار الرنين المغناطيسي النووي (NMR).إنه يوفر معلومات خالية من الملصقات حول توزيع المسافة بين بقايا البروتين غير المنتظمة لأغراض البحث، والتي يتم استخدامها لمقارنة نتائج التنبؤ والتحقق منها.

بالإضافة إلى ذلك، في مزيد من التحقق،قام الباحثون أيضًا بتحليل بيانات المجموعة البنيوية لـ Aβ و α-synuclein التي تم الحصول عليها من خلال محاكاة ديناميكية جزيئية لجميع الذرات ومحاكاة حبيبات خشنة باستخدام CALVADOS-2 (C2).ويؤكد هذا بشكل أكبر على دقة المسافة المتوقعة لـ AlphaFold.

هندسة النموذج: طريقة التفكير التكاملي المبتكرة

تم استخدام طريقة AlphaFold-Metainference الموصوفة في هذه الدراسة لإنشاء مجموعة من الهياكل التي تمثل الحالات الأصلية للبروتينات غير المنظمة والبروتينات التي تحتوي على مناطق غير منظمة.

يعتمد جوهر النهج على الملاحظة التي تفيد بأن المسافات بين البقايا التي تنبأت بها AlphaFold دقيقة نسبيًا حتى بالنسبة للبروتينات غير المنظمة، وبالتالي يمكن استخدامها كقيود هيكلية في محاكاة الديناميكيات الجزيئية ضمن إطار الاستدلال التلوي. وبمصطلحات بسيطة، لتوليد مجموعة البنية، يستخدم AlphaFold-Metainference المسافات المتوقعة كقيود هيكلية في محاكاة الديناميكيات الجزيئية.تحويل خرائط المسافة AlphaFold (المخططات التوزيعية) إلى مجموعات هيكلية.

أولاً، مسافة التنبؤ AlphaFold. استخدم الباحثون خريطة المسافة الخاصة بـ AlphaFold للتنبؤ بالمسافة المتوسطة بين البقايا وقاموا بحساب المسافة المتوقعة والانحراف المعياري باستخدام صيغة محددة. بعد ذلك، تم إجراء محاذاة تسلسل متعددة استنادًا إلى MMseqs2، وتم إجراء التنبؤ باستخدام نموذج AlphaFold 1.1.1 مع الإعدادات الافتراضية، دون استخدام قالب هيكلي. يتم توزيع المسافات بين البقايا الناتجة عن AlphaFold في 64 صندوقًا متساوي العرض، تتراوح من 2.15625 إلى 21.84375 Å، مع احتواء الصندوق الأخير أيضًا على مسافات تتجاوز 21.84375 Å.

ومن ثم يتم الجمع بين أسلوب الاستدلال الميتافيزيقي. إن ما يسمى بالاستدلال الميتا هو أسلوب استدلال بايزي، والذي يمكنه تحديد مجموعة البنية من خلال الجمع بين المعلومات السابقة والبيانات التجريبية استنادًا إلى مبدأ الحد الأقصى للإنتروبيا. في هذه المرحلة،استخدم الباحثون الرسم البياني للمسافة الذي تنبأ به AlphaFold كبيانات شبه تجريبية وطبقوا طريقة الاستدلال البايزي.تحديد المجموعة البنيوية عن طريق فصل التباين البنيوي عن الأخطاء المنهجية، مثل عدم الدقة في نموذج مجال القوة أو النموذج الأمامي، والأخطاء العشوائية في البيانات، والأخطاء الناجمة عن حجم العينة المحدود في المجموعة.

في عمليات محاكاة الديناميكيات الجزيئية، يتم إجراء الحسابات على أساس دالة طاقة الاستدلال الفوقي، ويتم تحديد معلمات الخطأ من خلال محاكاة النسخ المتعددة وعينات جيبس.أخيرًا، تم استخدام مجال القوة CALVADOS-2 لإجراء محاكاة خشنة الحبيبات.تنفيذ AlphaFold-Metainference.

الخطوة الأخيرة هي اختيار قيد المسافة. في هذه المرحلة، يتم تصفية المسافة المتوقعة بواسطة AlphaFold استنادًا إلى احتمالية المسافة وخطأ المحاذاة المتوقع.تم تحديد معايير الاختيار من خلال الجمع بين درجة محبة البروتين للماء ودرجات اختبار الفرق في المسافة المحلية المتوقعة (pLDDT).ومن الجدير بالذكر أن الاستخدام التجريبي لدرجات pLDDT لاختيار مسافات البقايا في المناطق المنظمة لا يستبعد استخدامها كقيود للمسافة لتحسين توليد مجموعات البنية.

بدأت جميع عمليات محاكاة الديناميكيات الجزيئية من البنية التي تنبأ بها AlphaFold وتم إجراؤها تحت مجموعة NVT. تم إعداد ستة نسخ متماثلة لكل محاكاة، وتم تشغيل كل نسخة متماثلة لمدة مليون خطوة، وبدأت المحاكاة من مواضع أولية مختلفة تم الحصول عليها في خطوة تقليل الطاقة.تستخدم المحاكاة مُتكامل Langevin.الخطوة الزمنية هي 5 fs، ومعامل الاحتكاك هو 0.01 ps⁻¹، ويتم استخدام نموذج قائم على Cα مع معلمات CALVADOS-2 والشكل الوظيفي.

ومن بينها، بالنسبة للبروتينات شديدة الاضطراب والاضطراب الجزئي، تم استخدام PULCHRA لتحويل جميع الهياكل في المجموعة ذات الحبيبات الخشنة إلى تمثيلات ذرية كاملة، ثم تم استخدام GROMACS لتقليل الطاقة للحصول على هياكل أكثر دقة.

وبشكل عام، توضح النتائج التي قدمها الباحثون كيف يمكن استخدام أساليب التعلم العميق التي تم تطويرها في الأصل للتنبؤ بالحالة الأصلية للبروتينات المطوية لتوليد مجموعة من الهياكل التي تمثل الحالة الأصلية للبروتينات غير المنظمة. تعمل هذه الطريقة على توسيع نطاق التنبؤ ببنية البروتين بشكل كبير استنادًا إلى التعلم العميق وتوفر فكرة جديدة للتنبؤ ببنية البروتين غير المنظمة.

النتائج التجريبية: التحقق الكامل من عقلانيتها

من حيث دقة التنبؤ بـ AlphaFold

قام الباحثون بمقارنة مجموعة من 11 بروتينًا كانت قياسات انتشار SAXS و NMR متاحة لها، ووجدوا اتفاقًا جيدًا بين توزيعات المسافة التي تنبأ بها AlphaFold وتوزيعات المسافة المستمدة من SAXS. وأضاف الباحثون أيضًا بروتينًا مطويًا للتحكم، كما هو موضح في الشكل أدناه.

مقارنة توزيع المسافة بين البقايا التي تم الحصول عليها بواسطة SAXS مع توزيع المسافة بين البقايا التي تنبأ بها AlphaFold للبروتينات شديدة الاضطراب

ومن الجدير بالذكر أن توزيع المسافة الذي يتنبأ به AlphaFold لا يغطي التوزيع المشتق من SAXA بالكامل، حيث أن المسافة التي يتنبأ بها AlphaFold تصل إلى حوالي 22 Å. وأظهرت النتائج أن قيمة DKL للمجموعة الضابطة المضافة كانت 0.037، وهي مماثلة لقيم DKL لـ 11 بروتينًا شديد الاضطراب (كان نطاق DKL 0.008-0.096).يوضح هذا أيضًا أن AlphaFold يتمتع بدقة مماثلة في التنبؤ بالمسافات بين البقايا للبروتينات المنظمة وغير المنظمة.

بالإضافة إلى ذلك، فإن المسافات التي تنبأت بها AlphaFold تتوافق أيضًا بشكل جيد مع المسافات المحسوبة من مجموعات MD من Aβ وα-synuclein ومن مجموعة CALVADOS-2.

في التحقق من مجموعات البنية شديدة الاضطراب

يمكن حساب توزيع المسافة الزوجية باستخدام قياسات تشتت الأشعة السينية بزاوية صغيرة. قام الباحثون بمقارنة توزيع المسافة الذي تم الحصول عليه تجريبيا مع توزيع المسافة الذي تم الحصول عليه من مجموعة الهياكل التي تم تحديدها بواسطة محاكاة AlphaFold-Metainference، مرة أخرى بالنسبة للبروتينات الـ 11 شديدة الاضطراب المذكورة أعلاه.

وفي الوقت نفسه، وللمقارنة بشكل أكبر، أظهر الباحثون أيضًا توزيع المسافة الذي تم الحصول عليه باستخدام CALVADOS-2، بالإضافة إلى توزيع المسافة المشتق من AlphaFold والذي تم إنشاؤه مباشرة من بنية AlphaFold واحدة. لتوفير مقارنة كمية، وجد الباحثون أن مجموعة الهياكل التي يوفرها AlphaFold-Metainference مع CALVADOS-2 كانت أكثر اتساقًا مع بيانات SAXS من هيكل واحد مشتق من AlphaFold.

قام الباحثون بمقارنة المجموعات البنيوية باستخدام التحولات الكيميائية للرنين المغناطيسي النووي، والتي تم حسابها في كل خطوة زمنية باستخدام CamShift.وتظهر النتائج أنه في بعض الحالات تكون تنبؤات AlphaFold-Metainference أكثر دقة.كما هو موضح في الشكل أدناه.

مقارنة توزيعات المسافة الزوجية للبروتينات شديدة الاضطراب من بيانات SAXS ومن مجموعات الهياكل التي تم الحصول عليها عن طريق المحاكاة الجزيئية

* يظهر توزيع المسافات التجريبية الزوجية التي تم الحصول عليها بواسطة SAXS كخط أسود

* يتم تمثيل التنبؤ بالهيكل الفردي لـ AlphaFold بخط أرجواني

* يتم تمثيل تنبؤات مجموعة بنية AlphaFold-Metainference بخطوط خضراء

* يظهر توزيع المسافة الزوجية التي تم الحصول عليها بواسطة CALVADOS-2 كخط برتقالي

في التحقق من المجموعات المنظمة غير المنظمة جزئيًا

قام الباحثون بإعداد مجموعة من ستة بروتينات ذات مجالات منظمة وغير منظمة، مع أطوال تسلسل مختلفة والتي كانت بيانات SAXS الخاصة بها متاحة للتحقق منها.

الأول هو TDP-43، وهو بروتين متعدد الوظائف يرتبط بالحمض النووي الريبي (RNA) وله بنية معيارية ويشارك في مجموعة متنوعة من العمليات الخلوية، بما في ذلك النسخ، وربط ما قبل الحمض النووي الريبي (mRNA)، وتنظيم استقرار الحمض النووي الريبي (mRNA)، والذي تم ربطه بمرض التصلب الجانبي الضموري (ALS) وأمراض عصبية تنكسية أخرى.

توصلت النتائج التجريبية إلى أنه عند تطبيق معايير التصفية التي وضعها الباحثون لاختيار المسافات التي تنبأ بها AlphaFold، ثم تطبيق AlphaFold-Metainference مع قيود المسافة هذه،إن المجموعة الهيكلية التي تم الحصول عليها تتفق بشكل أفضل مع بيانات SAXS.قيمة DKL هي 0.018 فقط.وهذا أفضل من قيمة DKL البالغة 0.582 عند استخدام هيكل AlphaFold المتوقع مباشرةً مع بيانات SAXS.كما هو موضح في الشكل أدناه.

مجموعة من هياكل TDP-43 المتوقعة باستخدام AlphaFold-Metainference

ثم انتقل الباحثون إلى تحليل بروتين أتاكسين-3 والبريون البشري. بالنسبة للأولى، تم الحصول على نتائج مماثلة لتلك الخاصة بـ TDP-43 الموصوفة أعلاه، حيث كان الهيكل المتوقع الذي تم الحصول عليه باستخدام AlphaFold مباشرة من قاعدة بيانات بنية بروتين AlphaFold متسقًا بشكل سيئ مع بيانات SAXS، مع قيمة DKL تبلغ 0.653، بينما عندما تم تطبيق معيار التصفية لتحديد المسافات المتوقعة لـ AlphaFold من محاكاة AlphaFold-Metainference،تم الحصول على مجموعة من الهياكل التي تتوافق بشكل أكبر مع بيانات SAXS.قيمة DKL هي 0.020 فقط. كما هو موضح في الشكل أدناه.

تم التنبؤ بمجموعة بنية Ataxin-3 باستخدام AlphaFold-Metainference

بالنسبة للأخير، فإن البنية المتوقعة التي تم الحصول عليها مباشرة من قاعدة بيانات بنية البروتين AlphaFold باستخدام AlphaFold لا تتوافق بشكل جيد مع بيانات SAXS، مع قيمة DKL تبلغ 0.1،عند تطبيق معايير التصفية، تم الحصول على مجموعة من الهياكل التي كانت أكثر اتساقًا مع بيانات SAXS.قيمة DKL هي 0.053 فقط. كما هو موضح في الشكل أدناه.

مجموعة من هياكل بروتين البريون البشري تم التنبؤ بها باستخدام AlphaFold-Metainference

بالإضافة إلى ذلك، قام الباحثون أيضًا بدراسة ثلاثة بروتينات أخرى، وهي CbpD وH16 وPC. وأظهرت النتائج أنفي جميع الحالات، فإن الاتفاق بين توزيعات المسافة بين البقايا التجريبية والمحسوبة عكسيا جيد جدا.وهذا يمثل تحسنًا كبيرًا مقارنة بالبنية الفردية لـ AlphaFold التي تم الحصول عليها مباشرة من قاعدة بيانات بنية البروتين AlphaFold، كما هو موضح في الشكل D أدناه.

أخيرًا، بالمقارنة مع طريقة CALVADOS-2، أظهر AlphaFold-Metainference أداءً أفضل على أربعة من البروتينات الستة (ataxin-3، وCbpD، وH16، وPC)، وأنتج مجموعات هيكلية مماثلة على البروتينين المتبقيين (TDP-43 وبروتين البريون البشري). كما هو موضح في الشكل أدناه.

مقارنة بين توزيعات المسافة الزوجية المشتقة من SAXS والمتوقعة من AlphaFold للبروتينات غير المنظمة جزئيًا

التقدم في التنبؤ بالبروتينات غير المنتظمة استنادًا إلى التعلم العميق

في السنوات القليلة الماضية، تم استخدام AlphaFold بشكل أساسي للتنبؤ بالبنية الثابتة للبروتينات المطوية، مما تسبب أيضًا في انتقاده من قبل مجتمع البحث العلمي. وتؤكد هذه الدراسة بلا شك أنها تتمتع أيضًا بمزايا تطبيقية محتملة في التنبؤ بالهياكل البروتينية غير المنظمة، كما توفر أيضًا اتجاهًا بحثيًا جديدًا للتنبؤ بالهياكل البروتينية غير المنظمة.

في الواقع، مع التكامل الوثيق بين الذكاء الاصطناعي وعلوم الحياة،لقد كانت هناك العديد من المناقشات حول التنبؤ بالهياكل البروتينية غير المنظمة.لقد أصبح استخدام الذكاء الاصطناعي لكشف أسرار الحياة أيضًا أسلوبًا سائدًا في مجال علوم الحياة الحديثة.

على سبيل المثال، ناقشت مقالة نُشرت سابقًا في مجلة Current Opinion in Structural Biology التقدم التطبيقي للتعلم العميق في البحث عن البروتينات المضطربة جوهريًا (IDPs)، وشرحت دورها في تعزيز التنبؤ بالبروتين المضطرب وتوصيف المجموعة التكوينية.

نُشر البحث ذو الصلة تحت عنوان "التعلم العميق للبروتينات المضطربة جوهريًا: من التنبؤات المحسنة إلى فك رموز المجموعات التكوينية".

* عنوان الورقة:

https://www.sciencedirect.com/science/article/pii/S0959440X24001775

وبالمصادفة، نشر فريق بحثي من جامعة كوبنهاجن في الدنمارك مقالاً في مجلة Nature حول أبحاث البروتينات غير المنظمة بعنوان "المجموعات التكوينية للبروتينات البشرية غير المنظمة جوهريًا". ناقشت المقالة استخدام طرق التعلم العميق المختلفة للتنبؤ بالمناطق غير المنظمة والمجموعات التكوينية والخصائص ذات الصلة بالنازحين داخليًا، بما في ذلك طرق التعلم العميق مثل AlphaFold المذكورة أعلاه، بالإضافة إلى نماذج لغة البروتين والشبكات التنافسية التوليدية، وما إلى ذلك.

*عنوان الورقة:

https://www.nature.com/articles/s41586-023-07004-5

ليس هناك شك في أن التطور السريع للذكاء الاصطناعي يساهم في تسريع فهمنا للمعنى الحقيقي للحياة. لقد استغرق العالم البريطاني جون كندرو 12 عامًا لاستخدام علم البلورات بالأشعة السينية لاستكشاف بنية البروتين الأولى. والآن، لا يحتاج AlphaFold سوى لبضع سنوات لكشف لغز طي مئات الملايين من البروتينات. في المستقبل، من يستطيع أن يؤكد أننا لن نتمكن من إتقان التنبؤ بالهياكل البروتينية غير المنظمة؟