HyperAIHyperAI

اقترح Meta AI وآخرون إطار عمل جديدًا لوصف اندماج البروتين الديناميكي، FusionProt، والذي يتيح تبادل المعلومات التكرارية ويحقق أداء SOTA في مهام متعددة.

特色图像

البروتينات هي المنفذ لوظائف الحياة، وأسرارها تكمن في بعدين:الأول هو التسلسل أحادي البعد (1D) الذي يتكون من الأحماض الأمينية المتصلة من النهاية إلى النهاية، والآخر هو الهيكل ثلاثي الأبعاد (3D) الذي يتكون من طي ولف التسلسل.عادةً ما تخصصت النماذج السابقة في أيٍّ منهما، إما بإتقان "لغة التسلسل" مثل نماذج لغة البروتين (PLMs) مثل ProteinBERT وESM، أو بتمييز "المورفولوجيا الهيكلية" مثل تقنيات تمثيل البروتين ثلاثية الأبعاد مثل GearNet. حتى عندما تحاول النماذج دمج الاثنين، فإنها غالبًا ما تستخدم نهجًا مبسطًا ومترابطًا، مما يسمح لكل متخصص، على ما يبدو، بالعمل بشكل مستقل بدلًا من التعاون.

وفي هذا السياق، اقترحت فرق البحث التابعة لمعهد تكنيون-إسرائيل للتكنولوجيا وMeta AI بشكل مشترك إطار عمل التعلم لتمثيل البروتين FusionProt.ويهدف إلى تعلم تمثيل موحد لتسلسل البروتين أحادي البعد وبنيته ثلاثية الأبعاد في وقت واحد.يقدم هذا البحث، بشكل مبتكر، رمز اندماج قابل للتعلم كجسر تكيفي بين نموذج لغة البروتين (PLM) ورسم البنية ثلاثي الأبعاد، مما يتيح تبادلًا متكررًا للمعلومات بينهما. وقد حقق FusionProt أداءً متطورًا في مجموعة متنوعة من المهام البيولوجية المتعلقة بالبروتين.

نُشر البحث ذو الصلة على bioRxiv تحت عنوان "FusionProt: دمج التسلسل والمعلومات البنيوية من أجل التعلم الموحد لتمثيل البروتين".

أبرز الأبحاث:

* يكسر إطار عمل FusionProt قيود معالجة تجزئة البنية السابقة من خلال دمج الوسائط أحادية الأبعاد وثلاثية الأبعاد بشكل فعال، ويحسن دقة التقاط وظائف البروتين وخصائص التفاعل.

* هندسة اندماجية متعددة الوسائط جديدة تستخدم رموز اندماج قابلة للتعلم لتمكين تبادل المعلومات التكراري بين نموذج لغة البروتين (PLM) ورسوم بيانية لبنية البروتين ثلاثية الأبعاد.

* يحقق FusionProt أداءً بمستوى SOTA في مهام البروتين المتعددة ويوضح إمكانات النموذج للتطبيق في السيناريوهات البيولوجية الحقيقية من خلال دراسات الحالة.

عنوان الورقة:

https://go.hyper.ai/OXLYl

اتبع الحساب الرسمي ورد "FusionProt" للحصول على ملف PDF كامل

مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://hyper.ai/papers

إنشاء مجموعات بيانات بشكل منهجي باستخدام قواعد بيانات البروتين العامة

في هذه الدراسة، استفاد فريق البحث بشكل كامل من قواعد بيانات البروتين العامة وتأكد من فعالية FusionProt في مهام فهم البروتين المتعددة من خلال بناء مجموعة بيانات منهجية واستراتيجية تقسيم البيانات الصارمة وإطار تقييم متعدد المهام.

في مرحلة ما قبل التدريب، استخدمت الدراسة قاعدة بيانات بنية البروتين (AlphaFold DB) كمصدر أساسي للبيانات.تحتوي قاعدة البيانات على 805,000 بنية بروتينية ثلاثية الأبعاد عالية الجودة، تنبأت بها AlphaFold2. وقد اختار الباحثون هذه المجموعة من البيانات للأسباب التالية: أولًا، يُعتبر AlphaFold2 حاليًا نموذجًا متطورًا في مجال التنبؤ ببنية البروتين، وتتميز تنبؤاته بموثوقية عالية، مما يقلل بشكل فعال من الاعتماد على جودة وتوافر البيانات الهيكلية التجريبية الخارجية؛ ثانيًا، يضمن استخدام بنية متوقعة موحدة الاتساق بين مصادر البيانات، مما يُسهّل المقارنة العادلة مع الأعمال المتقدمة السابقة مثل SaProt وESM-GearNet.

أجرى فريق البحث تقييمًا منهجيًا لأداء النموذج عبر ثلاث مهام لاحقة موثوقة. استخدمت هذه المهام مجموعات بيانات من DeepFRI، التي توفر تقسيمًا موثوقًا للبيانات وتستخدم Fmax كمقياس تقييم موحد، لقياس أداء النموذج بشكل شامل في شرح وظائف الإنزيم واستدلال علم الجينات. استخدمت مهمة التنبؤ باستقرار الطفرات (MSP) نفس مجموعة البيانات وبروتوكول التقييم المستخدم في ESM-GearNet، باستخدام AUROC كمقياس تقييم لتقييم قدرة النموذج على التنبؤ بتأثيرات الطفرات على استقرار معقدات البروتين.

آلية تبادل المعلومات التكرارية التي يقودها "رمز الاندماج"

يدور تصميم FusionProt حول فكرة أساسية:من خلال رموز الاندماج القابلة للتعلم، فإنه يعمل كجسر للتفاعل التكراري الثنائي الاتجاه بين تسلسل البروتين وبنيته.ويحقق هذا اندماجًا عميقًا وتمثيلًا موحدًا للنوعين من المعلومات.

أولاً، بُني الإطار على أساس بنية الترميز المتوازي ثنائية النمط "التسلسل-البنية". على مستوى التسلسل، يُستخدم ESM-2 كنموذج لغة البروتين لتشفير تسلسل الأحماض الأمينية؛ وعلى المستوى الهيكلي، يُستخدم مُرمِّز GearNet كنموذج هيكلي لنمذجة مخطط بنية البروتين ثلاثي الأبعاد. يتنقل رمز الاندماج القابل للتعلم ديناميكيًا بين النمطين أثناء عملية التدريب، مما يُتيح التبادل التكراري ودمج المعلومات. على مستوى التسلسل، يُتصل بتسلسل البروتين، وسيستفسر الحمض الأميني عن رمز الاندماج الفريد ذي الصلة لاستخراج المعلومات القيّمة ودمجها. على المستوى الهيكلي، يُضاف إلى الرسم البياني ثلاثي الأبعاد للبروتين ويُدمج ويُتصل كعقدة. تُعالج الطبقة الهيكلية بواسطة شبكة عصبية لتمرير الرسائل، مما يُمكّن رمز الاندماج من دمج المعلومات الهيكلية المكانية العالمية.

ثانياً، القوة الدافعة الأساسية لهذا الإطار تكمن في خوارزمية الاندماج التكراري.تتضمن العملية دمج رموز الاندماج في التسلسل المُحدّث، ثم تمريرها إلى طبقة البنية وتغذيتها في شبكة الرسم البياني للبنية كعُقد جديدة. تُعاد رموز الاندماج المُحدّثة بعد ذلك إلى طبقة التسلسل للجولة التالية من التفاعل. تُوازن هذه العملية التكرارية وتُعدّل المساحات النمطية المختلفة من خلال تحويلات خطية قابلة للتعلم. ومن خلال هذه العملية التكرارية، تُدمج تمثيلات النموذج لتكوين تمثيل بروتيني موحد وغني.

مخطط هندسة التدريب المسبق لـ FusionProt

أخيرًا، يستخدم FusionProt التعلم التبايني متعدد المشاهدات كهدف تدريب مسبق.تم إنشاء عرض متنوع عن طريق اختيار تسلسلات فرعية متتالية عشوائيًا وإخفاء حواف الرسم البياني لـ 15%. ثم تُستخدم دالة فقدان InfoNCE لمحاذاة التمثيلات في الفضاء الكامن، مع الحفاظ على تشابه المكونات الفرعية للبروتين ذات الصلة عند تعيينها إلى الفضاء الكامن منخفض الأبعاد. في التنفيذ، أجرى فريق البحث تدريبًا مسبقًا على قاعدة بيانات AlphaFold DB المذكورة أعلاه. أثناء التدريب المسبق، استخدم FusionProt معدل تعلم 2e-4، وحجم دفعة إجمالية من 256 بروتينًا، وأجرى 50 جولة من التدريب. تم اقتطاع تسلسل الإدخال إلى 1024 رمزًا لاستيعاب تسلسلات البروتين الطويلة. علاوة على ذلك، تم إجراء الضبط الدقيق عن طريق إضافة تنبؤات رأس التصنيف الخاصة بالمهمة وتقييم نفس المعلمات الفائقة مثل أحدث طراز SaProt. أجريت جميع التجارب على 4 وحدات معالجة رسومية NVIDIA A100 80GB، مع جلسة تدريب مسبق واحدة تستغرق حوالي 48 ساعة.

يتجاوز بشكل شامل SOTA الحالية، آلية الاندماج لها تأثيرات كبيرة

تم اختبار الدراسة على نطاق واسع في العديد من المهام اللاحقة.تظهر النتائج أن إطار عمل FusionProt يحقق أداء SOTA في معايير متعددة.وتظهر النتائج التجريبية في الشكل أدناه.

في تقييم تنبؤات رقم EC، قارن فريق البحث أداء FusionProt مع 11 نموذجًا أساسيًا. أظهرت النتائج أن FusionProt حقق أعلى قيمة Fmax = 0.904، متفوقًا بشكل ملحوظ على النماذج التي تعتمد فقط على التسلسل (مثل ProtBERT-BFD، 0.838، ESM-2، 0.877)، ومتفوقًا أيضًا على GearNet (0.871) الذي يستخدم المعلومات الهيكلية فقط. في الوقت نفسه، وبالمقارنة مع الطرق الأخرى التي تحاول استخدام هذين النوعين من المعلومات (مثل MIF-ST، ESM-GearNet، إلخ)، لا يزال FusionProt يتصدر القائمة. تُظهر هذه النتيجة أنه مقارنةً باستخدام نمط واحد كسياق لنمط آخر، يمكن لآلية الاندماج التكرارية في FusionProt الاحتفاظ بالمعلومات الهيكلية الرئيسية ثلاثية الأبعاد بشكل أكثر اكتمالًا، وبالتالي التقاط الفروق الهيكلية الدقيقة التي يعتمد عليها النشاط التحفيزي بدقة أكبر.

في تقييم التنبؤ بمصطلح GO، حقق FusionProt أفضل النتائج في المهام الفرعية الثلاث للعملية البيولوجية، والوظيفة الجزيئية، والمكون الخلوي، مما يوضح مرة أخرى فعالية رموز الاندماج القابلة للتعلم في النمذجة المشتركة للتسلسل والبنية.

مقارنة نتائج تقييم تنبؤات EC وGO في ظل أساليب خط الأساس المختلفة

أجرى فريق البحث أيضًا تقييمًا للتنبؤ باستقرار الطفرات. أظهرت النتائج التجريبية أن FusionProt حقق أعلى قيمة AUROC بين جميع الطرق المُقيّمة، مع دلالة إحصائية (p < 0.05). وقد تحسّن هذا الأداء بشكل ملحوظ بمقدار 5.11 TP3T مقارنةً بالطريقة الحديثة المتطورة، GVP، مما يُبرز فعالية آلية الاندماج التكرارية في دمج تبعيات التسلسل والبنية طويلة المدى. علاوة على ذلك، يُمكّن FusionProt من التفاعل متعدد الأنماط ثنائي الاتجاه من خلال رموز اندماج قابلة للتعلم، مما يجعل تمثيل البروتين أكثر تعبيرًا وأساسًا بيولوجيًا.

نتائج تقييم الطرق المختلفة للتنبؤ باستقرار الطفرة

لتقييم فعالية التصاميم الرئيسية لـ FusionProt، أجرى فريق البحث تجارب استئصال إضافية. اختبر الفريق النظام عند ترددات حقن اندماج مختلفة، ووجدوا أن الأداء الأمثل تحقق عندما أجرت علامات الاندماج جولات متعددة من التفاعلات بين مُرمِّزات التسلسل والبنية بتردد قياسي؛ بينما أدى تقليل تردد التفاعل إلى إضعاف الأداء بشكل ملحوظ.يوضح هذا أن تبادل المعلومات المتكرر أمر بالغ الأهمية لالتقاط التبعيات بين الوسائط.

أخيرًا، في تحليل حالة بيولوجية، نجح FusionProt في التنبؤ بعدد الخلايا البطانية (EC) لبروتين الوحدة الفرعية ω من بوليميراز الحمض النووي الريبي، وهو أمر يصعب التعامل معه بالطرق التقليدية. فشلت هذه النتيجة تمامًا في نماذج مثل ESM-2، مما يثبت أن التمثيل المُكتسب قادر على التقاط علاقات معقدة بين البنية والوظيفة، ويُظهر إمكانات تطبيقية واسعة في تطوير الأدوية وتحليل وظائف البروتين.

لقد أصبح الاندماج بين الوسائط المتعددة اتجاهًا واضحًا

مهدت FusionProt طريقًا جديدًا لتعلم تمثيل البروتينات، موضحةً أن "لغة" البروتينات و"شكلها" يجب أن يتواصلا مع بعضهما البعض، لا مع بعضهما البعض. مع التقدم المستمر للذكاء الاصطناعي في علوم الحياة، أصبح الاندماج متعدد الأنماط اتجاهًا واضحًا.

اقترحت جامعة ويستليك مفهوم مفردات مُراعية للبنية، ودمجت رموز بقايا الأحماض الأمينية مع رموز البنية لتدريب نموذج لغة بروتينية عالمي واسع النطاق، SaProt، على مجموعة بيانات تضم حوالي 40 مليون تسلسل وبنية بروتينية. تفوق هذا النموذج بشكل شامل على النماذج الأساسية المُعتمدة في 10 مهام لاحقة مهمة. وقد اختير البحث ذو الصلة، بعنوان "SaProt: نمذجة لغة البروتين باستخدام مفردات مُراعية للبنية"، للمشاركة في مؤتمر ICLR 2024.


عنوان الورقة:
https://openreview.net/forum?id=6MRm3G4NiU

تقترح دراسة مشتركة بعنوان "نموذج لغة البروتين المتوافق مع البنية"، نشرتها جامعة مونتريال وميلا، نموذجًا لغويًا بروتينيًا متوافقًا مع البنية، يدمج المعلومات البنيوية باستخدام التعلم التبايني. من خلال تحسين الرموز البنيوية المتوقعة للنموذج، يُحسّن النموذج أداء مهام التنبؤ باتصال البروتين بشكل ملحوظ.


عنوان الورقة:
https://arxiv.org/abs/2505.16896

احصل على أوراق بحثية عالية الجودة ومقالات تفسيرية متعمقة في مجال AI4S من عام 2023 إلى عام 2024 بنقرة واحدة⬇️

اقترح Meta AI وآخرون إطار عمل جديدًا لوصف اندماج البروتين الديناميكي، FusionProt، والذي يتيح تبادل المعلومات التكرارية ويحقق أداء SOTA في مهام متعددة. | الأخبار | HyperAI