HyperAI

تم اختياره لـ NeurIPS 24! اقترح فريق جامعة تشجيانغ نموذجًا جديدًا للغة البروتين DePLM، والذي يتنبأ بتأثيرات الطفرة بشكل أفضل من نموذج SOTA

特色图像

وباعتبارها الناقل الرئيسي للوظائف البيولوجية، فإن تنوع بنية البروتين ووظيفته الذي ظهر خلال مليارات السنين من التطور قد وفر فرصًا مهمة للتقدم في مجالات مثل اكتشاف الأدوية وعلوم المواد. ومع ذلك، فإن الخصائص المتأصلة في البروتينات الموجودة (مثل الاستقرار الحراري) غالبًا ما لا تكون قادرة على تلبية الاحتياجات الفعلية في كثير من الحالات. ولذلك يركز الباحثون على تحسين البروتينات لتعزيز خصائصها.

تعتمد تقنية المسح الطفري العميق التقليدية (DMS) والتطور الموجه (DE) على تقنيات تجريبية باهظة الثمن. في المقابل، يمكن للطرق المعتمدة على التعلم الآلي تقييم تأثيرات الطفرات بسرعة، وهو أمر بالغ الأهمية لتحسين البروتين بكفاءة.ومن بين هذه الأساليب البحثية المستخدمة على نطاق واسع استخدام المعلومات التطورية لاختبار آثار الطفرات.يمكن استخدام المعلومات التطورية لاستنتاج تأثير الطفرة من خلال احتمال ظهور حمض أميني في موضع معين في تسلسل البروتين. ولحساب الاحتمالية المرتبطة بطفرة حمض أميني واحد إلى آخر، تستخدم الطرق السائدة نماذج لغة البروتين (PLMs) المدربة على ملايين تسلسلات البروتين لالتقاط المعلومات التطورية بطريقة ذاتية الإشراف.

ومع ذلك، فإن النهج الحالي غالبا ما يتجاهل جانبين رئيسيين:- أولاً، تفشل الأساليب الحالية في إزالة المعلومات التطورية غير ذات الصلة. يعمل التطور على تحسين خصائص متعددة في وقت واحد لتلبية احتياجات البقاء، وهو ما يحجب في كثير من الأحيان تحسين خصائص الهدف. ثانيًا، تحتوي أهداف التعلم السائدة الحالية على معلومات خاصة بمجموعات البيانات، والتي غالبًا ما تتناسب بشكل مفرط مع بيانات التدريب الحالية، مما يحد من قدرة النموذج على التعميم على بروتينات جديدة.

ولمعالجة هذه التحديات، اقترح البروفيسور تشين هواجون والدكتور تشانغ تشيانغ وآخرون من كلية علوم الكمبيوتر والتكنولوجيا بجامعة تشجيانغ وكلية تشجيانغ الدولية ومركز تشجيانغ الدولي للعلوم والتكنولوجيا في هانغتشو نموذجًا جديدًا للغة البروتين لإزالة الضوضاء (DePLM) مُحسَّنًا للبروتينات.والمفتاح هنا هو النظر إلى المعلومات التطورية EI التي يلتقطها نموذج لغة البروتين باعتبارها مزيجًا من المعلومات المتعلقة بالميزة والمعلومات غير ذات الصلة، حيث تكون المعلومات غير ذات الصلة مماثلة لـ "ضوضاء" الميزة المستهدفة، وبالتالي يجب القضاء على هذه "الضوضاء". تظهر التجارب المكثفة أن عملية إزالة الضوضاء القائمة على الترتيب المقترحة في هذه الدراسة تعمل على تحسين أداء تحسين البروتين بشكل كبير مع الحفاظ على قدرات التعميم القوية.

وقد تم اختيار النتائج ذات الصلة للمؤتمر الأهم NeurIPS 24 تحت عنوان "DePLM: إزالة الضوضاء من نماذج لغة البروتين لتحسين الخصائص".

أبرز الأبحاث:

* يمكن لـ DePLM تصفية المعلومات غير ذات الصلة بشكل فعال وتحسين تحسين البروتين من خلال تحسين المعلومات التطورية الموجودة في PLM

* تصمم هذه الدراسة عملية تقدمية تعتمد على التصنيف في إطار انتشار إزالة الضوضاء، والذي يمتد عملية الانتشار إلى مساحة تصنيف إمكانيات الطفرة ويحول هدف التعلم من تقليل الخطأ العددي إلى تعظيم أهمية التصنيف، وتعزيز التعلم المستقل عن مجموعة البيانات وضمان قدرة تعميم قوية.

* تظهر النتائج التجريبية الواسعة أن DePLM لا يتفوق على النماذج الحديثة في التنبؤ بتأثيرات الطفرات فحسب، بل يُظهر أيضًا قدرات تعميم قوية للبروتينات الجديدة


عنوان الورقة:
https://neurips.cc/virtual/2024/poster/95517 

اتبع الحساب الرسمي ورد على "نموذج لغة البروتين الخالي من الضوضاء" للحصول على ملف PDF الكامل

تنزيل مجموعة بيانات طفرة البروتين من ProteinGym:
https://hyper.ai/datasets/32818

يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:

https://github.com/hyperai/awesome-ai4s

مجموعة البيانات: مجموعة واسعة من تجارب فحص الطفرات العميقة

ProteinGym عبارة عن مجموعة واسعة من تجارب الفحص الطفري العميق (DMS) تحتوي على 217 مجموعة بيانات.وبسبب حد طول PLM، استبعد الباحثون مجموعات البيانات التي تحتوي على بروتينات من النوع البري يزيد طولها عن 1024، وفي النهاية احتفظوا بـ 201 مجموعة بيانات DMS. يصنف ProteinGym DMS إلى خمس فئات تقريبية: 66 للاستقرار، و69 للياقة البدنية، و16 للتعبير، و12 للارتباط، و38 للنشاط.

* تجربة مقارنة الأداء:استخدم الباحثون نهج التحقق المتبادل العشوائي، حيث تم تعيين كل طفرة في مجموعة البيانات عشوائيًا إلى أحد خمسة أضعاف، وتم بعد ذلك تقييم أداء النموذج من خلال حساب متوسط نتائج هذه الطيات الخمسة.

* تجربة القدرة على التعميم:بالنظر إلى مجموعة بيانات اختبار، يختار الباحثون بشكل عشوائي ما يصل إلى 40 مجموعة بيانات متوافقة مع هدف التحسين الخاص بهم (مثل الاستقرار الحراري) كبيانات تدريب، مما يضمن أن يكون تشابه التسلسل بين بروتين التدريب وبروتين الاختبار أقل من 50% لتجنب تسرب البيانات.

هندسة النموذج: توسيع نموذج الانتشار استنادًا إلى العملية الأمامية في مساحة الفرز

كما ذكر أعلاه، فإن جوهر DePLM هو اعتبار المعلومات التطورية EI التي تم التقاطها بواسطة نموذج لغة البروتين PLM بمثابة مزيج من المعلومات المتعلقة بالميزة والمعلومات غير ذات الصلة، حيث تكون المعلومات غير ذات الصلة مماثلة لـ "ضوضاء" الميزة المستهدفة والقضاء على هذه "الضوضاء". ولتحقيق هذا الهدف، استلهم الباحثون نموذج انتشار إزالة الضوضاء، الذي يعمل على تحسين المدخلات الضوضائية لإنتاج الناتج المطلوب.

وعلى وجه التحديد، صمم الباحثون عملية متقدمة تعتمد على فرز المعلومات لتوسيع نموذج الانتشار لإزالة الضوضاء من المعلومات التطورية، كما هو موضح في الشكل أدناه.على الجانب الأيسر من الشكل أدناه، يستخدم DePLM احتمالية التطور المستمدة من PLM كمدخل ويولد احتمالية خالية من الضوضاء لسمة محددة للتنبؤ بتأثير الطفرات؛ في منتصف الجانب الأيمن من الشكل أدناه، تستخدم وحدة إزالة الضوضاء مُشفِّر الميزات لإنشاء تمثيلات للبروتين، مع مراعاة الهياكل الأولية والثالثية، والتي تُستخدم بعد ذلك لتصفية الضوضاء في الاحتمالية من خلال وحدة إزالة الضوضاء.


نظرة عامة على هندسة DePLM

تتكون نماذج انتشار إزالة الضوضاء من عمليتين رئيسيتين:يجب تعلم عملية الانتشار الأمامي وعملية إزالة الضوضاء العكسية. أثناء عملية الانتشار الأمامي، تتم إضافة كمية صغيرة من الضوضاء تدريجيًا إلى القيمة الحقيقية؛ بعد ذلك، تتعلم عملية إزالة الضوضاء العكسية كيفية استعادة القيمة الحقيقية عن طريق إزالة الضوضاء المتراكمة تدريجيًا.

ومع ذلك، هناك تحديان رئيسيان عند تطبيق هذه النماذج لتقليل احتمالات الطفرة في تحسين البروتين. أولاً، غالبًا ما تُظهر العلاقة بين قيم الميزات الفعلية والقياسات التجريبية عدم خطية، وهو ما ينبع من تنوع الأساليب التجريبية. لذلك، فإن الاعتماد فقط على تقليل الفرق بين القيم المتوقعة والملاحظة لإزالة الضوضاء قد يتسبب في ملاءمة النموذج بشكل مفرط لمجموعة بيانات محددة، وبالتالي تقليل قدرة النموذج على التعميم. ثانياً، على عكس نماذج انتشار إزالة الضوضاء التقليدية، يتطلب الباحثون أن تتقارب الضوضاء المتراكمة.

ولمعالجة هذه التحديات، اقترح الباحثون عملية انتشار إزالة الضوضاء على أساس الرتبة.ويتم التركيز على تعظيم أهمية الترتيب، كما هو موضح في الشكل أدناه. على الجانب الأيسر من الشكل أدناه، يتضمن تدريب DePLM خطوتين رئيسيتين: عملية الفساد الأمامي وعملية إزالة الضوضاء العكسية المكتسبة.

في خطوة إضافة الضوضاء، استخدم الباحثون خوارزمية فرز لتوليد مسارات انتقلت من التصنيفات القائمة على الاحتمالية الخاصة بالملكية إلى التصنيفات القائمة على الاحتمالية التطورية، وتم تدريب DePLM لمحاكاة هذه العملية العكسية. على الجانب الأيمن من الشكل أدناه، يوضح الباحثون التغير في معامل سبيرمان عند الانتقال من احتمالية التطور إلى احتمالية الملكية المحددة.


عملية تدريب DePLM

أخيرًا، من أجل تحقيق التعلم المستقل عن مجموعة البيانات وقدرات تعميم النموذج القوية،يقوم الباحثون بإجراء عملية انتشار في مساحة ترتيب قيم الميزات واستبدال الهدف التقليدي المتمثل في تقليل الخطأ العددي بتعظيم أهمية الترتيب.

نتائج البحث: يتمتع DePLM بأداء متفوق وقدرة قوية على التعميم

تقييم الأداء: التحقق من مزايا الجمع بين المعلومات التطورية والبيانات التجريبية

أولاً، لتقييم أداء DePLM في مهام هندسة البروتين، قارنه الباحثون بتسعة خطوط أساسية، بما في ذلك أربعة مشفرات تسلسل بروتين تم تدريبها من الصفر (CNN، وResNet، وLSTM، وTransformer)، وخمسة نماذج ذاتية الإشراف (OHE، وهي نسخة مضبوطة من ESM-1v، وESM-MSA، وTranception، وProteinNPT).

وتظهر النتائج في الجدول أدناه، حيث تم وضع علامة على أفضل نتيجة وثاني أفضل نتيجة بخط غامق وتسطير على التوالي. إجمالي،يتفوق DePLM على النماذج الأساسية، مما يؤكد ميزة الجمع بين المعلومات التطورية والبيانات التجريبية في مهام هندسة البروتين.


أداء DePLM والنماذج الأساسية في مهام هندسة البروتين


ومن الجدير بالذكر أن ESM-MSA وTranception يظهران معلومات تطورية أقوى من ESM-1v بسبب إدخال محاذاة التسلسل المتعدد (MSA). وبمقارنة نتائجهم، أثبت الباحثون أن المعلومات التطورية عالية الجودة أدت إلى تحسين النتائج بشكل كبير بعد الضبط الدقيق. ومع ذلك، حتى مع هذه التحسينات، لا يزال أداءها يفشل في الوصول إلى مستوى DePLM. وأشار الباحثون أيضًا إلى أنيتفوق DePLM على ProteinNPT، مما يؤكد فعالية إجراء تدريب إزالة الضوضاء المقترح.

تقييم القدرة على التعميم: إزالة تأثير العوامل غير ذات الصلة وتحسين الأداء

بعد ذلك، لتقييم قدرة DePLM على التعميم بشكل أكبر، قارنها الباحثون بأربعة خطوط أساسية ذاتية الإشراف (ESM-1v، وESM-2، وTranceptEVE)، وخطين أساسيين يعتمدان على البنية (ESM-IF وProteinMPNN)، وثلاثة خطوط أساسية خاضعة للإشراف (CNN، وESM-1v، وإصدارات دقيقة من ESM-2).

وتظهر النتائج في الجدول التالي. يتم وضع علامة على أفضل نتيجة وثاني أفضل نتيجة بخط غامق وتسطير على التوالي. ويمكن ملاحظة أنيتفوق نموذج DePLM باستمرار على جميع النماذج الأساسية - مما يوضح عدم كفاية النماذج التي تعتمد فقط على المعلومات التطورية غير المفلترة، والتي غالبًا ما تخفف من خاصية الهدف من خلال تحسين أهداف متعددة في وقت واحد. من خلال القضاء على تأثير العوامل غير ذات الصلة، يعمل DePLM على تحسين الأداء بشكل كبير.


تقييم القدرة على التعميم

وعلاوة على ذلك، فإن النماذج الأساسية ESM1v (FT) وESM2 (FT)، والتي تم تدريبها لتقليل الفرق بين النتائج المتوقعة والتجريبية، تعمل بشكل أسوأ بكثير من DePLM. وتظهر هذه النتيجة أنيؤدي تحسين النموذج في مساحة الترتيب إلى تقليل التحيز من مجموعة بيانات محددة، مما يؤدي إلى تعميم أفضل.وبالإضافة إلى ذلك، لاحظ الباحثون أن المعلومات البنيوية للبروتين تساهم في الاستقرار والارتباط، في حين تعمل المعلومات التطورية على تعزيز القدرة على التكيف وخصائص النشاط.

باختصار، يظهر عدد كبير من النتائج التجريبية أنلا يتفوق DePLM على النماذج الحديثة المتطورة في التنبؤ بتأثيرات الطفرات فحسب، بل يُظهر أيضًا قدرات تعميم قوية للبروتينات الجديدة.

يواصل فريق جامعة تشجيانغ تعميق إدارة دورة حياة المنتج وتعزيز تطوير الصناعة الحيوية

يتمتع نموذج اللغة الكبيرة للبروتين بالقدرة على التنبؤ بدقة ببنية البروتين ووظيفته وتفاعله، ويمثل التطبيق المتطور لتكنولوجيا الذكاء الاصطناعي في علم الأحياء. ومن خلال تعلم أنماط وهياكل تسلسلات البروتين، فإنه يمكن التنبؤ بوظيفة وشكل البروتينات، وهو أمر ذو أهمية كبيرة لتطوير الأدوية الجديدة وعلاج الأمراض والبحوث البيولوجية الأساسية.

وفي مواجهة هذا المجال الناشئ الواعد، واصل فريق جامعة تشجيانغ التعمق فيه في السنوات الأخيرة وحقق عددًا من نتائج الأبحاث العلمية المبتكرة.

في مارس 2023، قام البروفيسور هواجون تشين والدكتور تشيانغ تشانغ وفريق البحث التابع لمركز الذكاء الاصطناعي متعدد التخصصات بتطوير نموذج تدريب مسبق للغة البروتين. تم نشر البحث المتعلق بهذا النموذج في مؤتمر ICLR الدولي لعام 2023 حول تمثيل التعلم الآلي تحت عنوان "التدريب المسبق لهيكل البروتين متعدد المستويات باستخدام التعلم السريع". ومن الجدير بالذكر أن مؤتمر ICLR هو أحد أبرز المؤتمرات في مجال التعلم العميق، وقد أسسه اثنان من الفائزين بجائزة تورينج، يوشوا بينجيو ويان ليكون.

في هذا العمل، كان فريق البحث هو الأول في العالم الذي اقترح آلية التعلم السريع الموجهة نحو البروتين وقام ببناء نموذج PromptProtein.تم تصميم ثلاث مهام تدريب مسبقة لحقن المعلومات البنيوية الأولية والثالثية والرباعية للبروتينات في النموذج. من أجل استخدام المعلومات البنيوية بشكل مرن، المستوحاة من تكنولوجيا المطالبة في معالجة اللغة الطبيعية، اقترح الباحثون إطار عمل للتدريب المسبق والضبط الدقيق الموجه بالمطالبات. تظهر النتائج التجريبية لمهام التنبؤ بوظيفة البروتين ومهام هندسة البروتين أن الطريقة المقترحة تتمتع بأداء أفضل من النماذج التقليدية.

وبحلول عام 2024، يكون الفريق قد أحرز مزيدًا من التقدم في أبحاثه. لمعالجة التحدي المتمثل في أن PLMs جيدة في فهم تسلسلات الأحماض الأمينية ولكنها لا تستطيع فهم اللغة البشرية،اقترح فريق تشين هواجون وتشانغ تشيانغ من جامعة تشجيانغ نموذج InstructProtein، الذي يستخدم تعليمات المعرفة لمواءمة لغة البروتين واللغة البشرية، ويستكشف قدرات التوليد ثنائية الاتجاه بين لغة البروتين واللغة البشرية، ويسد الفجوة بين اللغتين بشكل فعال، ويوضح القدرة على دمج التسلسلات البيولوجية في نماذج لغوية كبيرة.

تم قبول البحث، الذي يحمل عنوان "InstructProtein: محاذاة اللغة البشرية والبروتينية من خلال تعليمات المعرفة"، من قبل المؤتمر الرئيسي لـ ACL 2024. تثبت التجارب التي أجريت على عدد كبير من مهام توليد النصوص البروتينية ثنائية الاتجاه أن برنامج InstructProtein يتفوق على برامج LLM الحديثة الموجودة.

انقر هنا لمشاهدة التقرير المفصل: تم اختياره للمؤتمر الرئيسي ACL2024 | InstructProtein: مواءمة لغة البروتين مع اللغة البشرية باستخدام تعليمات المعرفة

عنوان الورقة: 

https://arxiv.org/abs/2310.03269

في الواقع، هذه المقالات هي مجرد جانب واحد مما يعمل عليه الفريق. ويقال إن الباحثين في مركز الذكاء الاصطناعي متعدد التخصصات بجامعة تشجيانغ يأملون في التوصل إلى كيفية استخدام نماذج كبيرة من اللغة البروتينية أو الجزيئية لتحريك الروبوتات التجريبية العلمية مثل iBioFoundry وiChemFoundry، من خلال الجمع بين إشارات الاستشعار في العالم الحقيقي والبروتينات واللغة البشرية لإقامة رابط بين اللغة والإدراك.

وفي المستقبل، يتطلع الفريق إلى مزيد من التصنيع لنتائج أبحاثه وإجراء المزيد من الاستكشافات القيمة ودعم تطوير الأدوية الجديدة ومجالات الحياة والصحة.

مراجع:

1.https://neurips.cc/virtual/2024/poster/95517

2.https://hic.zju.edu.cn/2023/0328/c56130a2733579/page.htm