HyperAIHyperAI

تقترح جامعة هونج كونج للعلوم والتكنولوجيا إطار عمل للشبكة العصبية الاندماجية للتنبؤ بكفاءة بمواقع ربط المعادن المتعددة في تسلسلات البروتين

特色图像

تلعب أيونات المعادن دورًا أساسيًا في الحياة. يعمل الزنك كحمض لويس في تحفيز الهيدرولاز، والحديد ناقل رئيسي لنقل الإلكترونات في السلسلة التنفسية، والمغنيسيوم ضروري لطي الحمض النووي الريبوزي (RNA) إلى بنية ثالثية مستقرة. على الرغم من تراكم عدد كبير من هياكل البروتين المعدني عالية الدقة في بنك بيانات البروتين، إلا أن التحديد التجريبي لتفاعلات البروتين المعدني لا يزال يستغرق وقتًا طويلاً ويتطلب جهدًا وتكلفة.لذلك، أصبح التنبؤ الحسابي لمواقع ربط المعادن على أساس مستوى البقايا استراتيجية بديلة فعالة.

إن الطرق الحالية للتنبؤ بالمركبات متعددة المعادن محدودة للغاية بسبب بنيتها، بينما تعتمد التنبؤات القائمة على البنية على برامج حاسوبية باهظة التكلفة، مما يعيق تطبيقها العملي. وبينما برزت نماذج لغة البروتين كطريقة تنبؤ واعدة، إلا أن متطلباتها الحاسوبية الكبيرة وأوقات الاستدلال الطويلة تحد من تطبيقها العملي.

ولمعالجة هذه المشكلة، اقترح فريق بحثي من جامعة هونج كونج للعلوم والتكنولوجيا إطار عمل للشبكة العصبية الاندماجية للتنبؤ بمواقع ربط المعادن المتعددة في تسلسلات البروتين.يستخدم هذا الإطار بنيةً من مرحلتين، تجمع بين شبكة عصبية ملتوية (CNN) وشبكة اندماج. ومن خلال إدخال دالة خسارة مُراعية لاختلال التوازن، وتقييم متكامل، وبنية معيارية، يُعالج الإطار بفعالية اختلال التوازن بين العينات الموجبة والسالبة للمعادن المختلفة والتفاعلات المعقدة بينها. يُمكّن تصميمه المستقل عن البنية من إجراء تنبؤات شاملة سريعة وقوية وعالية الجودة على مجموعات بيانات ضخمة دون الحاجة إلى مُدخلات هيكلية، مما يُعزز بشكل كبير إمكانات التنقيب عن تفاعلات المعادن والبروتينات.

نُشر البحث ذو الصلة على bioRxiv تحت عنوان "نهج الشبكة العصبية الاندماجية المعيارية للتنبؤ بكفاءة بمواقع ربط المعادن المتعددة في تسلسلات البروتين".

أبرز الأبحاث:
* إطار عمل شبكة عصبية اندماجية من مرحلتين يجمع بين CNN وشبكة الاندماج؛

من خلال تقديم دالة خسارة إنتروبيا متقاطعة ثنائية مرجحة، يتم التعامل بشكل فعال مع مشكلة عدم توازن الفئة في التنبؤ بموقع ربط المعادن.

عنوان الورقة:

https://go.hyper.ai/Y7DNU

قم بمتابعة الحساب الرسمي والرد على "مواقع الربط متعددة المعادن" للحصول على ملف PDF كامل

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي: 

https://hyper.ai/papers

بناء مجموعة بيانات مستقرة وتمثيلية

من أجل إنشاء مجموعة بيانات عالية الجودة مناسبة للتدريب والتقييم، أجرى فريق البحث معالجة ثانوية بناءً على قاعدة بيانات MbPA الموجودة.أولاً، تم استرجاع مجموعة بيانات شاملة لبروتينات ربط المعادن من قاعدة بيانات MbPA. وجرى فحص ما مجموعه 91,593 بروتينًا قادرًا على ربط الزنك (Zn) والحديد (Fe) والمغنيسيوم (Mg)، مع الاحتفاظ بمعلومات مواقع ربطها المُتحقق منها وأيونات المعادن المقابلة. بناءً على هذا الأساس، أكمل فريق البحث تطبيع التسلسل وترميز الأعداد الصحيحة (بطول موحد لـ 500 حمض أميني)، وشرح مواقع الربط متعددة العلامات، وأخذ العينات الطبقية (مجموعة اختبار 15%، ومجموعة تطوير 85%)، ومعالجة اختلال توازن الفئات. تضمنت معالجة اختلال توازن الفئات عملية معالجة أولية من ثلاث مراحل وعملية تدريب مستقلة لمعالجة اختلال توازن الفئات مع تطبيق مُتنبئات خاصة بالمعادن في الوقت نفسه. كانت عملية التنفيذ كما يلي: إنشاء علامات خاصة بالمعادن، وحساب العينات الإيجابية، وفقدان الإنتروبيا المتبادلة الثنائية المرجح.

* MbPA (أطلس بروتينات ربط المعادن) هي مكتبة موارد لبروتينات ربط المعادن. تحتوي قاعدة البيانات حاليًا على 106,373 مدخلًا و440,187 موقعًا، تشمل 54 أيونًا معدنيًا و8,169 نوعًا.


مجموعة فرعية من بيانات البروتين التي يمكنها ربط أيونات معدنية مختلفة

إطار عمل التعلم العميق المكون من مرحلتين والاندماج المعياري

واقترح فريق البحث إطار عمل للتعلم العميق يعتمد على التسلسل ومكون من مرحلتين للتنبؤ بكفاءة بمواقع ربط المعادن المتعددة في تسلسلات البروتين.الفكرة العامة هي تدريب نماذج تنبؤ مستقلة لأيونات معدنية مفردة أولًا لتوليد خرائط احتمالية للبقايا المفردة. ثم تُدمج هذه الخرائط عبر شبكة اندماج خفيفة الوزن لنمذجة التبعيات بين المعادن، وفي نهاية المطاف تحسين أداء التنبؤ.

في المرحلة الأولى، استُخدمت شبكة عصبية التفافية أحادية البُعد (شبكة عصبية التفافية أحادية المعدن) لكل معدن منفرد، الزنك، والحديد، والمغنيسيوم، للتنبؤ باحتمالية الارتباط الموضعي لأيون معدني محدد. بعد المعالجة المذكورة، مُثِّل كل تسلسل بروتيني بشكل موحد كتمثيل ذي 500 بُعد. رُبطت البقايا المشفرة بأعداد صحيحة بطبقة تضمين لمتجه قابل للتدريب ذي 64 بُعدًا. ثم مُرِّر التسلسل عبر أربع طبقات Conv1D (عدد نوى الالتفاف: 512، 256، 128، 64، أحجام النوى: 15، 7، 5، 3)، باستخدام دالة تنشيط وحدة مستطيلة موحدة (ReLU). أُضيفت طبقة تساقط بمعدل تساقط قدره 0.3 بعد الطبقات التلافيفية. بعد استخراج الميزات التلافيفية والتنظيم، تم إدخال ميزات التسلسل إلى طبقة متصلة بالكامل موزعة زمنياً، والتي تقوم بإخراج احتمالية الارتباط المتوقعة بت بت باستخدام دالة تنشيط سيجما.

الإطار العام

المرحلة الثانية،قام فريق البحث بتصميم شبكة اندماج متكاملة متعددة المعادن (شبكة الاندماج).تُدمج تنبؤات المعادن الثلاثة في موتر ذي شكل (Lmax، M)، حيث Lmax = 500 حمض أميني وM = 3 قنوات معدنية. يُغذى هذا الموتر في طبقة متصلة بالكامل تحتوي على 256 وحدة مخفية وتنشيطات ReLU، لدراسة التفاعلات غير الخطية بين السمات الخاصة بكل معدن عند كل مستوى من مستويات البقايا. ثم تُضاف طبقة تسرب بمعدل تسرب 0.2 لتنظيم أوزان الاندماج ومنع الإفراط في التجهيز. وأخيرًا، تُستخدم مخرجات M سيجمويد في الطبقة الكثيفة لتوفير احتمالات ربط دقيقة للزنك والحديد والمغنيسيوم لكل بقايا. تستخدم شبكة الاندماج الإنتروبيا المتقاطعة الثنائية القياسية كدالة خسارة، وتُدرّب باستخدام مُحسِّن آدم، مما يُمكّنها من تصحيح أخطاء الارتباط وتحسين الدقة الإجمالية.

علاوة على ذلك، فإن الميزة الفريدة لهذا الإطار هي أنه يعتمد كليًا على بيانات تسلسل البروتين، وبالتالي القضاء على الاعتماد على البنية.يتيح هذا إكمال العملية بأكملها في أقل من ساعة على وحدة معالجة رسومية واحدة من طراز NVIDIA A800، وتساعد كفاءتها في تسريع العملية التجريبية وتعديل المعلمات في الوقت الفعلي.

التقييم التجريبي الشامل متعدد الأبعاد

استخدم فريق البحث مؤشرات متعددة الأبعاد لإجراء التقييم التجريبي.يتضمن هذا المقياس المُجمّع الدقة، والتذكر، ودرجة F1، ومعامل ارتباط ماثيوز (MCC). يُطبّق حدّ قرار τ على احتمالية الارتباط المُتنبّأة: إذا تجاوز الاحتمال المُتنبّأ لبقايا مُعيّنة τ، يُصنّف كموقع ارتباط معدني؛ وإلا، يُصنّف كموقع ارتباط غير معدني. مقارنةً بأساليب التقييم التي تُراعي قيمة واحدة فقط، يعكس هذا النظام المُجمّع للمقياس الأداء الحقيقي للإطار بشكل أفضل في سيناريوهات اختلال توازن الفئات.

يوضح الشكل (أ) أدناه العلاقة بين كل معدن ومتوسط درجة F1 الكلي وعتبة القرار τ. تُظهر النتائج أن Fe يؤدي أداءً جيدًا في التنبؤ، حيث تتجاوز درجات F1 0.81 عندما تتراوح قيم τ من 0.25 إلى 0.60. كما تحقق نماذج المعدن الفردي للزنك والمغنيسيوم درجات F1 تتجاوز 0.79 في النطاقين τ = 0.25-0.50 و0.25-0.60. بشكل عام، تبلغ درجة F1 المتوسطة الكلية ذروتها عند 0.855 عندما يتم ضبط العتبة بين 0.40-0.45، وهو الخيار الأمثل لموازنة الدقة والاسترجاع لجميع المعادن. يوضح الشكل (ب) العلاقة بين MCC والعتبة، مما يوضح بشكل أكبر أن الإطار لا يزال بإمكانه تحقيق توازن جيد حتى في حالة اختلال التوازن الشديد في الفئة.

يوضح الشكل (ج) منحنيات الدقة والتذكر للمعادن الثلاثة. يحافظ تنبؤ الحديد على دقة عالية عند مستويات تذكر عالية، مما يُظهر ملاءمته للفحص الشامل للموقع. كما يُظهر مؤشرا التنبؤ للزنك والمغنيسيوم أداءً جيدًا، مما يُظهر متانة الإطار للتطبيقات التي تتطلب تذكرًا عاليًا نسبيًا ودقة مستدامة.

أخيرًا، يوضح الشكل (د) الدقة والتذكر ونتيجة F1 للتنبؤات المعدنية المختلفة عند العتبتين الأمثل τ = 0.40 و0.45.تُظهر النتائج إمكانية تعديل الإطار بمرونة وفقًا لخصائص المعادن المختلفة. ويمكن استخدامه في سيناريوهات الفحص ذات أولوية التغطية، كما يُمكنه تلبية احتياجات التحقق التجريبي عالي الدقة.

لتقييم مساهمة كل مكون معماري، أجرى فريق البحث أيضًا تجارب استئصال منهجية للتحقق من مبدأين أساسيين للتصميم:(1) تعتبر دالة فقدان الإنتروبيا المتبادلة الثنائية المرجحة أمرًا بالغ الأهمية للتعامل مع مشكلة اختلال التوازن الطبقي في التنبؤ بموقع ربط المعادن. (2) تعمل بنية شبكة الاندماج على تعزيز اتساق التنبؤ وتلتقط العلاقات المتبادلة بين المعادن التي لا يمكن استغلالها بواسطة النماذج الفردية بشكل مستقل.

بدءًا من أبسط طبقة CNN مفردة، كان متوسط F1 0.265 فقط. تحسن الأداء بشكل ملحوظ مع زيادة طبقات الالتفاف، حيث زاد متوسط F1 إلى 0.840 باستخدام CNN ثلاثي الطبقات، مما يُظهر الدور الحاسم لاستخراج السمات الهرمية. أدى إدخال خاصية التسرب إلى زيادة F1 إلى 0.856، مما منع الإفراط في التجهيز وحسّن التعميم. ولمعالجة اختلال توازن الفئات، صمم فريق البحث دالة فقدان إنتروبيا متقاطعة ثنائية مرجحة، مما حسّن التذكر بشكل كبير دون المساس بالدقة الكلية. وأخيرًا، أدت إضافة طبقة دمج إلى تحسين متوسط F1 إلى 0.859. تُنمذج طبقة الدمج هذه بفعالية التبعيات بين الفلزات، مما يعزز دقة ومتانة تنبؤات مستوى البقايا.


نتائج تجربة الاستئصال

محرك جديد لتسريع عملية التعدين التفاعلي بين المعادن والبروتينات

يُقدم هذا الإطار البحثي الجديد شرحًا متقدمًا للبروتينات المعدنية، ويُصبح محركًا أساسيًا لتسريع تحليل تفاعلات البروتين المعدني. لا شك في أهمية استكشاف تفاعلات البروتين المعدني في علم الأحياء، وقد حظي هذا التوجه البحثي باهتمام كبير. يستكشف باحثون من فرق بحثية مختلفة بنشاط مناهج وأدوات جديدة من وجهات نظر متنوعة. فيما يلي إنجازان رفيعا المستوى:

طُوِّرت أداتان - Metal3D وMetal1D - من قِبَل المعهد الفيدرالي السويسري للتكنولوجيا في لوزان (EPFL) لتحسين التنبؤ بمواقع أيونات الزنك في هياكل البروتينات. ويمكن توسيع إطار عمل Metal3D ليشمل معادن أخرى عن طريق تعديل بيانات التدريب. نُشر البحث ذو الصلة، بعنوان "Metal3D: إطار عمل عام للتعلم العميق للتنبؤ الدقيق بمواقع أيونات المعادن في البروتينات"، في مجلة Nature Communications.
عنوان الورقة:
https://www.nature.com/articles/s41467-023-37870-6

نُشرت دراسة على arXiv بعنوان "التعلم متعدد الوسائط القابل للتفسير لربط بروتين الورم بالمعادن: التقدم والتحديات والآفاق"، تُلخص بشكل منهجي أحدث التطورات والتحديات المستمرة في استخدام التعلم الآلي للتنبؤ بربط بروتين الورم بالمعادن. كما تقترح اتجاهين واعدين لتصميم أدوية معدنية فعالة: دمج بيانات تفاعل البروتينات لتوفير رؤى هيكلية حول ربط المعادن؛ والتنبؤ بالتغيرات الهيكلية في بروتينات الورم بعد ربط المعادن.
عنوان الورقة:
https://arxiv.org/abs/2504.03847

روابط مرجعية:
1.https://pubs.acs.org/doi/10.1021/cr300014x