النسخة الكورية من AlphaFold؟ نموذج التعلم العميق AlphaPPIMd: لاستكشاف مجموعة من تكوينات مجمعات البروتين-البروتين

يلعب البروتين دورًا لا غنى عنه في مرحلة الحياة. إنها الجزيئات الأكثر نشاطًا في الكائنات الحية، وتشارك في بناء الخلايا وإصلاحها وتحويل الطاقة ونقل الإشارات وعدد لا يحصى من الوظائف البيولوجية الرئيسية. وفي الوقت نفسه، يرتبط هيكل البروتينات ارتباطًا وثيقًا بوظائفها، وتتحقق وظائفها من خلال تفاعلات معقدة مع البروتينات والببتيدات والنيوكليوتيدات والجزيئات الصغيرة المختلفة. يشكل هذا التفاعل بين البروتينات (PPI) جوهر العديد من العمليات البيولوجية داخل الخلايا، بدءًا من إشارات الخلايا إلى الاستجابات المناعية إلى تنظيم دورة الخلية.
ومع ذلك، فإن فهمنا الحالي للبنية الثلاثية الأبعاد للبروتينات وخصائص تفاعلها لا يزال غير مكتمل. التقنيات التجريبية التقليدية، مثل علم البلورات بالأشعة السينية والمجهر الإلكتروني بالتبريد،على الرغم من أنها يمكن أن توفر معلومات هيكلية عالية الدقة عن البروتين، إلا أنها تستغرق وقتًا طويلاً ومكلفة.علاوة على ذلك، فإنهم يواجهون تحديات في تحليل العمليات الديناميكية والبروتينات ذات الوفرة المنخفضة. ويؤدي هذا إلى تقييد كبير في فهم الناس لوظائف البروتين وآليات التفاعل، ويؤثر بدوره على تطوير تصميم الأدوية وهندسة البروتين.
ولمعالجة هذه المشكلة، قام الدكتور جيانمين وانج من جامعة يونسي وزملاؤه بدمج التعلم العميق مع الذكاء الاصطناعي التوليدي.استخدام التعلم الشبكي العصبي التوليدي القائم على المحول لاستكشاف المجموعة التكوينية لمجمعات البروتين-البروتين،تم التعرف على البقايا الرئيسية التي تؤثر على تكوين وديناميكيات مجمعات البروتين-البروتين من مسارات ديناميكية جزيئية متعددة (MD) وقدمت رؤى ميكانيكية في ارتباط البروتين-البروتين.

عنوان الورقة:
https://doi.org/10.1101/2024.02.24.581708
نموذج AlphaPPIMd: يعتمد على محاكاة الديناميكيات الجزيئية، مع آلية الاهتمام الذاتي باعتبارها الأساس
استخدم فريق البحث مجموعة مسارات معقدة بارناس-بارستار كمجموعة بيانات.أولاً، تم تنزيل البنية البلورية لمجمع بارناس-بارستار من بنك بيانات البروتين (PDB)، وتم استخراج السلاسل A وD باعتبارها البنية الأولية للمجمع عن طريق إزالة الربيطة والماء البلوري. ثم أضاف الباحثون ذرات الهيدروجين المفقودة باستخدام وحدة tleap في AmberTools وقاموا بتحييدها عن طريق إضافة أيونات الصوديوم والكلوريد، وإذابتها داخل صندوق حدودي دوري 12Å لجزيئات الماء TIP3P. أخيرًا، تم تجميع ملفات الطوبولوجيا والإحداثيات للنظام باستخدام وحدة tleap في AmberTools وحقل القوة AMBER ff14SB.
ثم استخدم فريق البحث نظام محاكاة الديناميكيات الجزيئية لأداء 500 خطوة من عمليات محاكاة NVT النموذجية باستخدام مُتكامل Langevin لتقليل الطاقة. وبعد ذلك، تم تنفيذ 10000 خطوة من محاكاة NPT عند 300 كلفن للوصول إلى حالة التوازن بشكل أكبر، وتم استخدام خوارزمية شبكة الجسيمات Ewald لحساب التفاعلات الكهروستاتيكية طويلة المدى. تم ضبط قيمة قطع التفاعلات المكانية المباشرة على 1 نانومتر، وتم ضبط خطوة وقت المحاكاة على 2 fs، وتم ضبط خوارزمية SHAKE لتقييد أطوال جميع الروابط التي تتضمن ذرات الهيدروجين. تم بعد ذلك إجراء ستة محاكاة ديناميكية جزيئية مستقلة لمدة 100 نانوثانية. تم إجراء كافة عمليات المحاكاة باستخدام OpenMM 7.7.
بعد الانتهاء من محاكاة الديناميكيات الجزيئية،قام فريق البحث ببناء نموذج AlphaPPIMd على أساس Transformer، باستخدام نموذج توليدي عميق لالتقاط الحالات التكوينية للبروتين والتي يصعب تحليلها باستخدام الديناميكيات الجزيئية التقليدية. إن جوهر إطار عمل AlphaPPImd هو آلية الاهتمام الذاتي، والتي يمكنها التقاط أزواج بقايا الأحماض الأمينية الرئيسية التي تؤثر على تكوين مجمعات البروتين-البروتين من مسارات MD.

أولاً،يقوم إطار عمل AlphaPPImd بمعالجة مسار MD للمجمع البروتيني-البروتين للحصول على طول التسلسل وتركيب التسلسل ونوع بقايا الأحماض الأمينية للسلسلتين، ويحسب زوايا Φ وΨ للبقايا المحددة في المسار لتمثيل الحالات التكوينية المختلفة. (كما هو موضح في المربعات المنقطة باللون الوردي والأخضر في الصورة أعلاه)
ثانيًا،يقوم الباحثون بإدخال كل إطار من مسار MD لمجمع البروتين-البروتين في وحدة التشفير الخاصة بـ AlphaPPImd من خلال وحدة التضمين، والتي تحتوي على آلية انتباه ذاتي متعددة الرؤوس، ودرجة انتباه، ووحدة تحسين الميزات. يتم استخدام فك تشفير AlphaPPImd لتعلم وتسجيل مساهمات بقايا أنواع ومواضع مختلفة في مجمع البروتين في التكوين.
أخيرا،تقوم وحدة التنبؤ بشكل متكرر بإنشاء الحالة الأساسية للإطار التالي، ويمكن للنموذج إعادة بناء النموذج التكويني للمجمع البروتيني استنادًا إلى مسار ترميز الحالة الأساسية الممتدة.
تتعلم طبقة الاهتمام الذاتي متعددة الرؤوس في وحدة فك التشفير AlphaPPImd التفاعلات بين أزواج البقايا المحددة. يمكن اعتبار وظيفة الانتباه بمثابة تعيين بين الاستعلام (Q) وإخراج القيمة الرئيسية (KV). يعتمد AlphaPPImd على تضمين بقايا مُركّبات البروتين كـ Q، وخصائص مُركّبات البروتين الشاملة كـ K وV، ويحسب أوزان الانتباه باستخدام Q وK. صيغة الحساب هي كما يلي:

وفي الوقت نفسه، قامت الدراسة بتقسيم ستة مسارات MD مستقلة بطول 100 نانوثانية لمجمع بارناس-بارستار إلى 300 بدائية، يتكون كل منها من 1000 إطار. تمت معالجة مسارات MD مسبقًا للاحتفاظ بذرات البروتين فقط. يوفر كل تشغيل MD مجموعة محدودة من اللقطات الفيزيائية لمجمعات البروتين-البروتين. يتم تمثيل كل إطار في المسار كحالة أساسية للترميز Φ,Ψ. لذلك،يتم تقليص حالة الالتواء لمركب بروتين-بروتين إلى تمثيل نصي،تم الحفاظ على السمات الثانوية الرئيسية للديناميكيات.
استنتاج البحث: متوسط دقة التدريب يصل إلى 0.995، ويمكن تمديدها إلى المزيد من المجمعات البروتينية
يتكون مجمع بارناس-بارستار من سلسلتين مختلفتين بإجمالي 197 بقايا (سلسلة بارناس: 108 بقايا، سلسلة بارستار: 89 بقايا). استخدمت الدراسة خوارزمية KMeans لتقسيم المواقع إلى 4 مجموعات، تم تسميتها بـ 0 (أرجواني في الشكل أدناه)، و1 (أزرق غامق في الشكل أدناه)، و2 (أخضر في الشكل أدناه)، و3 (أصفر في الشكل أدناه)، ثم تم تسجيل وتخزين مركز كتلة كل مجموعة لإعادة بناء نموذج الذرات الكامل لمجمع بارناس-بارستار من حالة الالتواء المشفرة في الحالة الأرضية.

تقوم هذه الدراسة بتحويل مسار كل إطار إلى متجه حرفي، يتكون كل منه من 4 رموز تتوافق مع 4 مجموعات. أخيرًا، تم إجراء عملية تمثيل مماثلة لجميع العناصر الـ 300 في مجموعة بيانات مسار MD لمجمع barnase-barstar.
في ملخص،مجمع بارناز-بارستار هو ثنائي غير متماثل له اختلافات واضحة في الحالات الأساسية للبقايا المشفرة في السلسلتين.وهذا يعني أن مجمع بارناز-بارستار يختلف بشكل كبير في توليد أطر تشفير جديدة للحالة الأرضية وفي إعادة بناء النماذج التكوينية للبروتينات الفردية.

تظهر الأبحاث أنمتوسط دقة التدريب لنموذج AlphaPPImd هو 0.995 ومتوسط دقة التحقق هو 0.999.على الرغم من أن AlphaPPImd حقق أداءً مستقرًا بسرعة، إلا أنه من أجل تحسين نموذج المحول بشكل أكبر وإثراء توزيع تكوين MD الذي تعلمه النموذج، استخدمت هذه الدراسة مسارات MD متعددة كمجموعات بيانات. على سبيل المثال، قامت الدراسة باختيار إطار عشوائيًا من مسار مجموعة الاختبار كمدخل واستخدمت إطار AlphaPPImd المدرب لتوليد 100 إطار ترميز الحالة الأرضية.
وتظهر النتائج أنالنموذج قادر على أخذ العينات ونشر التكوينات بنجاح.ويمكن تطبيق القيود ثنائية السطوح لـ Φ و Ψ بشكل صحيح.

كما اختارت الدراسة أيضًا أربعة تشكيلات تمثيلية ذات RMSD قريبة من 2Å من بين 1000 تشكيل معقد بارناس-بارستار تم إنشاؤها بواسطة نموذج AlphaPPImd. وأظهرت نتائج الدراسة أنيعتبر نموذج تكوين المجمع البروتيني الذي تم إنشاؤه بواسطة AlphaPPImd أقرب إلى البنية البلورية المرجعية.كانت الدقة أعلى (انحراف التربيعي المتوسط < 2Å) وكانت القبول أعلى (DockQ ≥ 0.23).

علاوة على ذلك، فإن آلية الاهتمام في AlphaPPImd تلتقط أوزان الاهتمام بين البقايا الرئيسية وتوفر رؤى ميكانيكية حول ارتباط البروتين بالبروتين.
أظهرت الدراسات أن البقايا الرئيسية التي تم التقاطها بواسطة نموذج AlphaPPImd تقع بشكل أساسي عند واجهات التفاعلات البروتينية والحلقات واللولب، مما يعني أنتمكن النموذج التوليدي العميق من التقاط البقايا الرئيسية التي تؤثر على ديناميكيات وتكوين مجمع بارناس-بارستار من مسار MD.يمكن استخدامه لتكملة نتائج MD. وفي الوقت نفسه، توجد البقايا الرئيسية التي تم التقاطها بواسطة نموذج AlphaPPImd بشكل أساسي في واجهة التفاعل بين Mdm2 وp53، وهو ما يثبت أيضًا أن النموذج يمكن توسيعه ليشمل مجمعات بروتين-بروتين أخرى.
التنبؤ بالبروتين بالذكاء الاصطناعي: من ألفا فولد إلى مائة مدرسة فكرية
في وقت مبكر من عام 2016، بعد أن أصبح AlphaGo مشهورًا، بدأ فريق DeepMind في البحث في مشكلة طي البروتين.
في مسابقة CASP (التقييم النقدي للتنبؤ ببنية البروتين) الثالثة عشرة في نهاية عام 2018، احتل AlphaFold المرتبة الأولى بين 98 متسابقًا وتنبأ بدقة ببنية 25 من أصل 43 بروتينًا. في عام 2020، تم إطلاق AlphaFold 2، مما أدى إلى تحقيق تنبؤ دقيق للغاية لهياكل مونومر البروتين. في أكتوبر 2021، أصدرت DeepMind تحديثًا يسمى AlphaFold-Multimer، والذي يتوسع في AlphaFold 2 ويمكنه نمذجة مجمعات من بروتينات متعددة. في 8 مايو 2024، أذهل AlphaFold 3 العالم مرة أخرى، حيث وسع نطاق التنبؤ من البروتينات إلى مجموعة واسعة من الجزيئات البيولوجية.
عند إطلاق ألفا فولد 2، صرّح شي ييغونغ، الأكاديمي في الأكاديمية الصينية للعلوم، لوسائل الإعلام: "في رأيي، يُعدّ هذا أعظم إسهام للذكاء الاصطناعي في مجال العلوم، وهو أيضًا أحد أهم الإنجازات العلمية التي حققتها البشرية في القرن الحادي والعشرين. إنه إنجاز تاريخي بارز في الاستكشاف العلمي للبشرية للعالم الطبيعي".
مع مثال AlphaFold، وصلت الثورة الصناعية التي أحدثتها الذكاء الاصطناعي في مجال تصميم البروتين بهدوء.
في عام 2023،تم الكشف رسميًا عن أول نموذج لتوليد البروتين بالذكاء الاصطناعي في العالم NewOrigin (الاسم الصيني "داروين") في مؤتمر التصنيع العالمي.ويقال إن نموذج NewOrigin الكبير يعتمد على آلية التوليد المشروط ويجمع بين آليات التغذية الراجعة متعددة الأبعاد مثل الذكاء الاصطناعي والديناميكيات الجزيئية والحوسبة الكمومية والتجارب الرطبة. يمكنه إنشاء تسلسلات بروتينية ووظائف بروتينية وتمثيلات معرفة بروتينية ومحتويات بروتينية أخرى بدقة عالية، وإكمال مهام متعددة الأبعاد مثل التقارب والاستقرار والنشاط والتعبير لتلبية احتياجات التطبيقات الصناعية الحقيقية.
في عام 2022، نشر علماء الأحياء من كلية الطب بجامعة واشنطن ورقتين بحثيتين في مجلة ساينس، حيث قدموا اكتشافاتهم الرئيسية. وقال الباحثون:باستخدام التعلم الآلي، يمكن إنشاء جزيئات البروتين في ثوانٍ.في الماضي، كانت هذه الفترة تستغرق عدة أشهر. إن إنشاء بروتينات غير موجودة في الطبيعة من شأنه أن يساعد في تطوير اللقاحات، وتسريع البحث في علاجات السرطان، وتطوير أدوات احتجاز الكربون، وتطوير المواد الحيوية المستدامة، وأكثر من ذلك.
ليس هناك شك في أن التنبؤ ببنية البروتين بواسطة الذكاء الاصطناعي يمكن أن يساعدنا في فهم البروتينات بشكل أفضل، وبالتالي الحياة. ومع ذلك، فإن المعرفة والفهم وحدهما لا يكفيان. في المستقبل، سيحتاج العلماء إلى استخدام الذكاء الاصطناعي للتنبؤ بالبروتينات لحل المشكلات العملية في المجال الطبي، مثل تعديل البروتينات حسب الطلب أو حتى تصميم بروتينات غير موجودة في الطبيعة من الصفر. إن الطريق أمامنا طويل وشاق، ونحن نتطلع إلى أن يجلب الذكاء الاصطناعي المزيد من المفاجآت في استكشاف علوم الحياة.