HyperAI

تم اختيار فريق Zhou Hao من Tsinghua AIR للمشاركة في ICLR 2025 Oral، واقترح نموذجًا جديدًا للتدريب المسبق للبروتين لفك شفرة تطور عائلة البروتين

特色图像

اقترحت مجموعة البحث AIR GenSI بجامعة تسينغهوا وكلية الصيدلة بجامعة تسينغهوا بشكل مشترك أداة للنمذجة التوليدية الخاصة بعائلة البروتين - ProfileBFN (شبكة تدفق Bayesian Profile). يقوم ProfileBFN بتوسيع شبكة التدفق البايزية المنفصلة من منظور ملفات تعريف محاذاة التسلسل المتعددة (MSA) لتحقيق تصميم فعال لعائلة البروتين. وتظهر النتائج التجريبية أنأثناء توليد بروتينات عائلية متنوعة وجديدة، يتمكن ProfileBFN من التقاط السمات الهيكلية للعائلة بدقة.

وقد حملت النتائج ذات الصلة عنوان "توجيه تصميم عائلة البروتين من خلال التدفق البايزي للملف" وتم اختيارها كبحث شفوي في مؤتمر ICLR 2025. وفي الوقت نفسه، تم اختيار إنجاز آخر للفريق، وهو CrysBFN، أيضًا لمؤتمر ICLR 2025 Spotlight. عنوان ورقة البحث هو "التدفق البايزي الدوري لتوليد المواد".

في الجلسة الأخيرة، اقترح الفريق شبكة التدفق البايزي الهندسية GeoBFN، وتم اختيار النتائج ذات الصلة لـ ICLR 2024 Oral تحت عنوان "النمذجة التوليدية الموحدة للجزيئات ثلاثية الأبعاد باستخدام شبكات التدفق البايزي".

أعضاء الفريق يتواصلون مع المشاركين في مؤتمر ICLR 2025
قدم أعضاء الفريق العمل البحثي في مؤتمر ICLR 2025

رابط الورقة:

https://go.hyper.ai/Dg5ha

يجمع مشروع المصدر المفتوح "awesome-ai4s" أكثر من 200 تفسير لورقة AI4S ويوفر مجموعات بيانات وأدوات ضخمة:

https://github.com/hyperai/awesome-ai4s

محاذاة التسلسلات المتعددة: حجر الأساس للتنبؤ ببنية البروتين

يشير محاذاة التسلسلات المتعددة (MSA) إلى عملية محاذاة ثلاثة أو أكثر من التسلسلات البيولوجية (DNA أو RNA أو البروتين). يساعد محاذاة التسلسلات المتعددة على اكتشاف وتحديد المناطق المتشابهة بسبب العلاقات الوظيفية أو البنيوية أو التطورية، مما يوفر منظورًا أكثر شمولاً للعلاقات بين الجزيئات البيولوجية الكبيرة.

في السنوات الأخيرة، أصبح استخدام معلومات MSA جزءًا مهمًا من تصميم البروتين. في الأعمال المهمة مثل AlphaFold وESM، توجد وحدات خاصة تقوم بتشفير معلومات MSA:

يستخدم AF2 MSA كأداة مهمة لاستخراج الميزات
محول MSA في ESM

هناك العديد من التسلسلات للنجاح، وهناك العديد من التسلسلات للفشل.

يعتبر MSA بمثابة كنز من المعلومات التطورية، ولكن النماذج الحالية تبدو وكأنها تبالغ في تقدير قدرتها على اكتشافها. مع تطور التكنولوجيا، استمر عمق MSA في إدخال النموذج التوليدي العميق في الزيادة، لكن التأثير واجه عنق زجاجة، مما أثار تساؤلات حول فعالية التكلفة لإضافة معلومات MSA. السبب الجذري هو وجود حالة خطيرة من عدم اليقين فيما يتصل بكمية ونوعية المناطق الإحصائية المتوسطة:

عندما يتم استخدام MSA كمدخل كلمة سريعة في النموذج الكبير، فإن العلاقة بين الكفاءة وطول الإدخال

يُطلق الباحثون على التسلسلات التي تفي بدرجة معينة من التشابه في محاذاة التسلسلات المتعددة اسم التسلسلات المتجانسة. من حيث الكمية، بالنسبة لبعض البروتينات "اليتيمة"، قد لا يكون هناك أكثر من 10 تسلسلات متجانسة، بينما بالنسبة لبعض البروتينات، يمكن البحث عن أكثر من 10000 تسلسل متجانس، مما يسبب ارتباكًا كبيرًا للنماذج الكبيرة، مما يؤدي إلى إهدار الموارد والتأثير على الكفاءة.

في الواقع، عجائب الطبيعة تتجاوز الخيال البشري. على مدى مليارات السنين من التطور، تعكس الهياكل المتقاربة تأثيرات الانتقاء الطبيعي، في حين توفر الطفرات إمكانيات جديدة للتطور. بالنسبة لهذه الأنواع الخاصة في البيئات الخاصة، فإنها غالبًا ما تحتفظ بمعلومات المظهر الأصلية في بداية الشجرة التطورية، والتي تشكل على وجه التحديد الأساس لاستنتاج نظرية التطور المشترك. إذا تم استخدام التسلسلات المتجانسة كمدخلات للنموذج، فمن المؤكد أن هذه المعلومات سوف تغمرها كمية كبيرة من المعلومات الأخرى غير ذات الصلة، ولا يمكن نمذجة سوى التمثيلات ذات الاحتمالات العالية. ولمعالجة هذا الأمر،يقوم ProfileBFN بإنشاء نموذج لكل مجموعة من التسلسلات المتجانسة باعتبارها تمثيلًا موحدًا مستقلًا عن العدد.

يجب أن يحتوي التسلسل المتجانس الجيد على أكبر قدر ممكن من المعلومات المتجانسة. تظهر التجارب أنه في معظم الحالات، يمكن أن يؤدي استخدام عدد قليل من التسلسلات المتجانسة ذات أكبر إنتروبيا للمعلومات إلى تحقيق نفس التأثير الناتج عن استخدام مئات التسلسلات المتجانسة. تختلف بعض التسلسلات المتجانسة فقط ببضعة أحماض أمينية، مما يوفر الكثير من المعلومات المكررة المضللة للنموذج.

الملف الشخصي: حجر الأساس لنموذج قاعدة البروتين للجيل القادم

يعتمد العلم على الإكتشاف.يكمن ابتكار ProfileBFN في اكتشاف كمية كبيرة من التكرار في المعلومات الموجودة في MSA الأصلية. إذا تم فرز 100 تسلسل متجانس وفقًا لطريقة إنتروبيا المعلومات، فيمكن للنموذج تحقيق نفس التأثير باستخدام أول 20 فقط للتدريب. وللقيام بذلك، يجب إنشاء جسر بين التسلسل الفردي والتسلسلات المتعددة، وهذا هو سبب ظهور الملف الشخصي:

لفهم ذلك بشكل بديهي، فإن Profile عبارة عن إحصائيات عمودًا بعمود لعدد حدوث الأحماض الأمينية في محاذاة تسلسل متعددة. علاوة على ذلك، إذا كان هناك تسلسلات متجانسة 1w، كل منها بطول 100، فسوف يضغطها Profile مباشرة من [10000،100] إلى قائمة من [20،100] (20 حمض أميني شائع)، مما يبسط إلى حد كبير التعقيد الحسابي. على وجه الخصوص، يمكن أيضًا اعتبار التسلسل الفردي ملف تعريف خاص، باستثناء أنه يوجد 1 واحد فقط في كل عمود.

وجدت ProfileBFN أن الضغط من MSA إلى Profile لم يتسبب في فقدان المعلومات الخطير الذي كان متوقعًا في الأصل فحسب، بل أدى أيضًا إلى تحسين أداء النموذج بشكل كبير.يمكن فهم ذلك على النحو التالي: في الموجة الكبيرة من بناء الملف الشخصي،يصوت كل تسلسل متجانس على نوع الأحماض الأمينية التي تظهر في هذا الموضع، مما يخفي التناقضات البسيطة ويسلط الضوء على الاتجاه العام.

أداء قوي غير متوقع لـBFN

بالمقارنة مع الطريقة التقليدية القائمة على محاذاة التسلسل المتعدد،يعتمد ProfileBFN على بيانات أقل بعشر مرات ويتعلم معلومات سياقية أكثر بـ 1.5 مرة حول تسلسلات البروتين.التأثير فوري!

كل صورة: الجزء العلوي الأيسر هو GT، والجزء السفلي الأيمن هو سياق التنبؤ بالنموذج. الصورة اليسرى: سياق تنبأ به ProfileBFN. الصورة اليمنى: سياق التنبؤ بالتسلسل المتماثل (MSA).

بعد الاستكشاف، تم التأكيد على أن ProfileBFN له تأثير مساعد على مجموعة متنوعة من المهام اللاحقة:

* تصنيف الانزيمات:تحسين الدقة الوظيفية وتقليل تكاليف الفحص

* تعلم تمثيل البروتين:المساعدة في استخراج ميزات متعددة المهام

* التنبؤ ببنية البروتين:تعزيز معلومات التماثل وتحسين دقة النمذجة

* إنتاج الأجسام المضادة:تأثير هجرة ممتاز، والتنبؤ الدقيق بالمجالات الوظيفية

إن الإنزيمات هي فئة خاصة من البروتينات ذات النشاط التحفيزي، ويتم وصف خصوصيتها الوظيفية عادة بأرقام EC (أرقام لجنة الإنزيم). توصلت الدراسة إلى أن مرشحي الإنزيم الجدد الذين تم إنشاؤهم بواسطة ProfileBFN يتطابقون بشكل كبير مع الإنزيم من النوع البري من حيث أرقام الخلايا البطانية، مما يعني أن البروتينات الناتجة حافظت على درجة عالية من الاتساق الوظيفي. تعمل هذه الميزة على تقليل صعوبة الفحص التجريبي بشكل كبير وتحسين معدل نجاح تصميم الإنزيم الجديد.

في حين يقوم ProfileBFN بإنشاء البروتينات، فإنه يقوم أيضًا ببناء تمثيلات بروتينية دقيقة داخل النموذج. وقد استخرج الباحثون هذه التمثيلات،وقد تم ضبطه على مجموعات بيانات متعددة مثل الاستقرار الحراري للبروتين، وتفاعل البروتين، وتوطين البروتين الفرعي للخلية. أظهرت النتائج أن التمثيل الذي توفره ProfileBFN يمكن أن يحسن بشكل فعال أداء النموذج في المهام اللاحقة مثل التصنيف. ويشير هذا إلى أنه ليس مجرد نموذج توليدي فحسب، بل إنه أيضًا أداة قوية لتعلم الميزات.

يعد التنبؤ ببنية البروتين قضية مهمة في علم الأحياء البنيوي.وخاصة في حالة البروتينات اليتيمة (أي البروتينات التي تحتوي على عدد قليل جدًا من البروتينات المتجانسة)، فإن دقة الطرق التقليدية محدودة للغاية. أظهرت الدراسات أن ProfileBFN يمكن استخدامه كمعزز لمعلومات التماثل.باستخدام كمية صغيرة فقط من بيانات MSA، يتم إنشاء المزيد من البروتينات المتجانسة عالية الجودة، وبالتالي تحسين دقة التنبؤ بنماذج سلسلة AlphaFold. تمنح هذه القدرة ProfileBFN آفاق تطبيق واسعة في مجال البيولوجيا البنيوية.

الأجسام المضادة هي بروتينات وظيفية يمكنها الارتباط بشكل خاص بالمستضدات ولها أهمية كبيرة في الأبحاث المناعية والمرضية. لاستكشاف إمكانات ProfileBFN في توليد الأجسام المضادة،قام الباحثون بضبط النموذج استنادًا إلى قاعدة بيانات تسلسل الأجسام المضادة OAS (مساحة الأجسام المضادة المرصودة).وأظهرت النتائج أن ProfileBFN أظهر أداءً جيدًا في توليد تسلسلات أجسام مضادة متنوعة وعالية الجودة.

يأتي التأثير الاستثنائي لـ ProfileBFN من حقيقة أن هذا البحث الجديد يوفر نموذجًا لتوليد التسلسلات البيولوجية في عصر ما بعد MSA:

* لا تشارك MSA بشكل مباشر في عملية التدريب كمدخلات، ولا تقدم تكاليف تدريب إضافية

* في مرحلة الاستدلال، يتم نمذجة التسلسل الفردي وMSA بشكل موحد

* التسلسلات المتجانسة هي مدخلات ومخرجات النموذج

يستخدم BFN المعلومات السابقة بشكل مثالي

نظرًا لأن معلومات الملف الشخصي مهمة جدًا، حتى أنها أكثر أهمية من التسلسل المتماثل الأصلي، فكيف ينبغي لنا استخدام معلومات الملف الشخصي؟ Bayesian Flow Network BFN هي تطابق مثالي للملف الشخصي! ويتجلى ذلك في نقطتين:

* تقوم BFN بإنشاء نماذج للعملية من التوزيع إلى التوزيع، حيث يكون المدخل هو تمثيل الملف الشخصي ولا يزال المخرج هو تمثيل الملف الشخصي

* بدلاً من الاستدلال من الصفر، يمكن لـ BFN تقديم معلومات الملف الشخصي كأولوية للاستدلال الشرطي

تتطلب النماذج التقليدية مثل نموذج الانحدار التلقائي ونموذج الانتشار بيانات (رموز) كمدخلات، كما أن معالجة معلومات الملف الشخصي من شأنها أن تزيد من تعقيد الخوارزمية.

مع استخدام BFN كهيكل نموذجي، يمكن لـ ProfileBFN تحقيق المزيد من:

* تبسيط المهام. يصبح التوليد المشروط للمعلومات المتجانسة تقليدًا لمعلومات الملف الشخصي.

* تحسين الكفاءة. يتم تقليل نطاق أخذ العينات وتحسين الفعالية

من المتوقع أن يكون ProfileBFN هو المنقذ للاختبارات الرطبة

في مهام مثل علم الأحياء الاصطناعي، تعد الدورات الطويلة ومؤشرات التقييم الفردية وانعدام المصداقية من المشاكل الشائعة التي يواجهها الباحثون. باعتباره نموذجًا قائمًا على البروتين، يمكن لـ ProfileBFN دمج معلومات أكثر تجانسًا في ظل موارد محدودة، والاستفادة الكاملة من المعلومات السابقة المحددة، ولديه تأثير هجرة جيد على مؤشرات متعددة، مما يجعله بلا شك الخيار الأفضل لتوليف البروتينات المرشحة والتطور الموجه.

حول مجموعة البحث

يغطي مجال البحث في مجموعة أبحاث الذكاء الرمزي التوليدي (GenSI) التابعة لمعهد الصناعة الذكية بجامعة تسينغهوا الاتجاهين التاليين: LLM والذكاء الاصطناعي للعلوم. ومن المتوقع أن يعمل الاتجاهان على تعزيز بعضهما البعض وبالتالي تحقيق المهمة النهائية المتمثلة في الذكاء الاصطناعي للعلوم (عالم الذكاء الاصطناعي).

تتضمن اتجاهات البحث المحددة الجيل الجديد من تكنولوجيا التدريب المسبق واسعة النطاق، والتعلم التعزيزي واسع النطاق (Large Scale RL)، والنماذج التوليدية العميقة (Deep Generative Models) وتطبيقاتها في البيانات العلمية، مع التركيز على دمج وابتكار خوارزميات الذكاء الاصطناعي الأساسية والمشاكل العلمية. يركز الفريق حاليًا على النظريات المتطورة للنماذج التوليدية العميقة واستكشاف أساليب النماذج التوليدية القائمة على الهيكل القابل للتطوير، ويلتزم بحل المشكلات العلمية الواقعية والتحديات في مجالات LLM وAI4Sci، مثل تحسين قدرة التفكير في LLM وتجاوز مهام توليد الهيكل على مستوى AF3.

يمكن التواصل مع الفريق عبر القنوات التالية⬇️

* الصفحة الرئيسية:https://go.hyper.ai/7ye91

* البريد الإلكتروني: gen_si@163.com

* شياوهونغشو/تشيهو: جينسي

* تويتر: @GenSI_official

* وي تشات: 15805171115