تم اختياره لـ ICLR 2025! اقترح شين تشون هوا وآخرون من جامعة تشجيانغ تقنية محاذاة بولتزمان، ووصلت توقعات الطاقة الحرة المرتبطة بالبروتين إلى SOTA

تشكل التفاعلات بين البروتينات (PPIs) الأساس لجميع الكائنات الحية لأداء وظائف بيولوجية مختلفة، والتي تتحقق بشكل أساسي من خلال التفاعل والتأثير بين جزيئات البروتين المختلفة. إن التعرف الدقيق وفهم التفاعلات بين البروتينات أمر في غاية الأهمية لفك رموز وظائف البروتينات، والكشف عن أنشطة الحياة، واستكشاف آليات المرض، وتطوير الأدوية المستهدفة، والابتكار في التطبيقات البيولوجية.
مع تطور أجهزة الكمبيوتر والذكاء الاصطناعي، حقق البحث في PPIs في مجتمع البحث العلمي تقدمًا كبيرًا في السنوات الأخيرة بدعم من التعلم العميق. وخاصة AlphaFold 3 الذي أصدرته DeepMind في عام 2024،تم رفع معدل نجاح التنبؤ ببنية المجمعات البروتينية العامة إلى ما يقرب من 80%.ويحل هذا أيضًا بشكل فعال مشكلة النمذجة الحسابية عالية الدقة للتفاعلات البروتينية التي أزعجت مجتمع البحث العلمي لعقود من الزمن.
ومع ذلك، فإن التفاعل بين البروتينات هو عملية ديناميكية تتضمن الارتباط والتفكك. من الصعب التقاط التفاعل بين الجزيئات البيولوجية بالكامل من خلال دراسة الهياكل الثابتة وحدها.يمكن لمعلمات مثل طاقة الربط الحرة (∆G، الفرق في طاقة جيبس الحرة بين الحالات المرتبطة وغير المرتبطة) أن تميز ديناميكيات التفاعلات بين البروتينات بشكل كمي.ومع ذلك، فإن كيفية التنبؤ بدقة بالتغير في طاقة الارتباط الحرة (∆∆G، والمعروفة أيضًا باسم تأثير الطفرة) أصبحت أحد المتطلبات الأساسية للمجتمع العلمي لفهم أو تنظيم تفاعلات البروتين مع البروتين.
وبناءً على ذلك، قام فريق البروفيسور شين تشون هوا من كلية علوم الكمبيوتر والتكنولوجيا بجامعة تشجيانغ، بالتعاون مع فرق من جامعة أديلايد في أستراليا وجامعة نورث إيسترن في الولايات المتحدة،نقترح بشكل مشترك تقنية تسمى محاذاة بولتزمان لنقل المعرفة من نموذج طي عكسي مدرب مسبقًا إلى تنبؤات ∆∆G.تناولت الدراسة أولاً تحليل التعريف الديناميكي الحراري لـ ∆∆G وربطت بين توزيع الطاقة وتكوين البروتين من خلال تقديم توزيع بولتزمان، وبالتالي تسليط الضوء على إمكانات النماذج الاحتمالية المدربة مسبقًا. ثم استخدم الفريق نظرية بايز للالتفاف على التقدير المباشر واستخدم الاحتمال اللوغاريتمي الذي يوفره نموذج طي البروتين العكسي لتقدير ∆∆G. يقدم هذا الاشتقاق تفسيرًا منطقيًا للارتباط العالي بين طاقة الارتباط واحتمالية اللوغاريتم لنموذج الطي العكسي الذي لوحظ في تجارب سابقة أخرى.
وبالمقارنة مع طريقة الطي العكسي السابقة، تظهر النتائج التجريبية لهذه الطريقة على مجموعة بيانات SKEMPI v2 مستوى متفوقًا.وبلغ معامل سبيرمان في الحالتين الخاضعة للإشراف وغير الخاضعة للإشراف 0.5134 و0.3201 على التوالي.أعلى بشكل ملحوظ من طرق SOTA السابقة 0.4324 و 0.2632.
تم إدراج هذا الإنجاز، المعنون بـ "نموذج الطي العكسي المتوافق مع بولتزمان كمتنبئ للتأثيرات الطفرية على تفاعلات البروتين مع البروتين"، في ICLR 2025، وهو المؤتمر الأكاديمي الدولي الأبرز في مجال الذكاء الاصطناعي. ومن الجدير بالذكر أن مؤتمر ICLR لهذا العام تلقى ما مجموعه 11,565 مشاركة، وتم قبول 32.08% فقط من المخطوطات.

عنوان الورقة:
https://arxiv.org/abs/2410.09543
أوصي بحدث مشاركة أكاديمي. أحدث دعوة للبث المباشر لمؤتمر AI4S ستكون في الساعة 12:00 ظهرًا يوم 7 مارس.هوانغ هونغ، أستاذ مشارك في جامعة هواتشونغ للعلوم والتكنولوجيا، وتشو دونغ تشان، باحث شاب في مركز الذكاء الاصطناعي للعلوم في مختبر الذكاء الاصطناعي في شنغهاي، وتشو بينج شين، باحث مساعد في معهد العلوم الطبيعية في جامعة شنغهاي جياو تونغ.تعريف بالإنجازات الشخصية ومشاركة تجربة البحث العلمي.
التعلم العميق يسرع التحول النموذجي في حساب تأثيرات الطفرة
لقد كان المجتمع العلمي يدرس التنبؤ بـ ∆∆G لفترة طويلة.يمكن تقسيم الطرق التقليدية إلى فئتين: الطرق البيوفيزيائية والطرق الإحصائية.ومن بينها، تعمل الطرق البيوفيزيائية بشكل أساسي على محاكاة كيفية تفاعل البروتينات على المستوى الذري من خلال حسابات الطاقة؛ تعتمد الأساليب الإحصائية على هندسة الميزات، باستخدام الوصافات بشكل أساسي لالتقاط الخصائص الهندسية والفيزيائية والتطورية للبروتينات.
ليس هناك شك في أنه، مهما كانت الطريقة التقليدية المستخدمة، فإنها تحتاج إلى الاعتماد بشكل كبير على الخبرة البشرية، والتي لا تستغرق وقتا طويلا وتتطلب الكثير من العمل فحسب، بل إنها أيضا غير قادرة على التقاط التفاعلات المعقدة بين البروتينات بدقة. بالإضافة إلى ذلك، كلتا الطريقتين لها عيوبها الخاصة. على سبيل المثال، تواجه الأساليب البيوفيزيائية في كثير من الأحيان تحديات في تحقيق التوازن بين السرعة والدقة. لا تُظهر الأساليب القائمة على التعلم العميق "موهبة" عظيمة في نمذجة البروتين فحسب، بل تعمل أيضًا على تسريع تحويل نموذج التنبؤ ∆∆G.
وهناك المزيد والمزيد من الحالات التي تثبت ذلك. على سبيل المثال، اقترح فريق من الأكاديمية الصينية للعلوم طريقة تعتمد على التعلم التمثيلي تسمى SidechainDiff.تستخدم هذه الطريقة نموذج انتشار ريمان لتعلم عملية توليد تكوينات السلسلة الجانبية ويمكنها أيضًا تقديم تمثيل خلفي هيكلي للطفرات عند واجهة البروتين-البروتين.وباستخدام التمثيلات المكتسبة، تحقق الطريقة أداءً متطورًا في التنبؤ بتأثيرات الطفرات على ارتباط البروتين بالبروتين.
تم تسمية هذه النتيجة بـ "التنبؤ بالتأثيرات الطفرية على ارتباط البروتين بالبروتين من خلال نموذج احتمالي لانتشار السلسلة الجانبية" وتم تضمينها في NeurIPS 2023.
* عنوان الورقة:
على الرغم من أن أساليب التعلم العميق حققت نتائج كبيرة، إلا أنها ليست مثالية. وبالتزامن مع المثال أعلاه،وتذكر هذه الورقة أيضًا أن "البيانات التجريبية المتعلقة بشرح طاقة الارتباط غير متوفرة".يُعتبر هذا بشكل عام تحديًا كبيرًا يعتمد على أساليب التعلم العميق، مما أدى بشكل مباشر إلى اتجاه المزيد من الفرق إلى التدريب المسبق على عدد كبير من مجموعات البيانات غير المصنفة قبل تحسين القدرة على التنبؤ بالطفرات. يتضمن ذلك مجموعة متنوعة من مهام وكيل التدريب المسبق، مثل طي البروتين العكسي، ونمذجة القناع، ونمذجة السلسلة الجانبية في المثال أعلاه.
ولحسن الحظ أن هذه الأساليب "البديلة" حققت أهدافها، ولكن من المؤسف أنها أظهرت أيضاً نقاط ضعفها دون استثناء. تستخدم معظم الطرق المعتمدة على التدريب المسبق الضبط الدقيق الخاضع للإشراف (SFT) فقط.ومع ذلك، يتم تجاهل أهمية محاذاة البيانات، مما قد يتسبب في أن يتسبب الضبط الدقيق الخاضع للإشراف في نسيان النموذج للمعرفة العامة التي اكتسبها سابقًا أثناء التدريب المسبق غير الخاضع للإشراف، مما يؤدي إلى خطر الإفراط في التجهيز.وبالنظر إلى الماضي، فإن هذه الأساليب "البديلة" تسلط الضوء بلا شك على مدى إلحاح نقل المعرفة المكتسبة للتنبؤ الدقيق بالطفرات.
تطوير مبتكر لمحاذاة بولتزمان لتجاوز نماذج SOTA
على وجه التحديد، استند فريق البحث في البداية على توزيع بولتزمان ومبادئ الدورة الديناميكية الحرارية،يرتبط التغير في الطاقة الحرة المرتبطة عندما يتحور البروتين باحتمالية حدوث تسلسل الأحماض الأمينية للبروتين.تم اقتراح محاذاة بولتزمان (كما هو موضح على الجانب الأيمن من الشكل أدناه). وبعد ذلك، اقترح فريق البحث طريقة تسمى BA-Cycle، والتي دمجت نموذج الطي العكسي في محاذاة بولتزمان واستخدمت نموذج الطي العكسي لتقييم الطفرات من خلال التنبؤ باحتمالية تسلسلات البروتين (كما هو موضح على الجانب الأيسر من الشكل أدناه).

ومن الجدير بالذكر أنه من أجل إقامة العلاقة بين الطاقة الحرة لربط البروتين واحتمالية تسلسل البروتين الشرطية، ولحل الصعوبات الرئيسية التي تواجه تقدير احتمالية p(X|S) لبنية البروتين بشكل مباشر تحت تسلسل معين:القيود المفروضة على نماذج التنبؤ ببنية البروتين الحالية وعيوب النماذج الاحتمالية،قام فريق البحث باستبدال نظرية بايز في صيغة حساب حرية الارتباط، أي p(X|S) = p(S|X) ・ p(X)/p(S)، وربط بنجاح طاقة الارتباط الحرة بالاحتمال الشرطي p (X|S) لتسلسل البروتين، متجنبًا بذلك صعوبة تقدير p (X|S) بشكل مباشر. وقد أرسى هذا الأساس لمزيد من التحليل للعلاقة بين التغيرات في طاقة الارتباط الحرة والاحتمالية الشرطية لتسلسلات البروتين.
بالإضافة إلى ذلك، نظرًا لأنه من المفترض أن بنية البروتين تظل دون تغيير قبل وبعد الطفرة،استخدم فريق البحث نموذج الطي العكسي لتقييم احتمالات تسلسل الحالات المرتبطة وغير المرتبطة.عادةً ما يكون الهيكل الأساسي للحالة المرتبطة معروفًا، ويمكن للنموذج حساب احتماليته بشكل مباشر؛ لم يتم تحديد هيكل العمود الفقري للحالة غير المرتبطة بشكل صريح، ويمكن تقدير الاحتمال من خلال تقييم السلسلتين في المركب بشكل منفصل.
وبناء على هذا،واقترح فريق البحث طريقة تسمى BA-Cycle لتقدير ∆∆G دون إشراف.تم تحقيق التقييم غير الخاضع للإشراف لـ ∆∆G باستخدام نموذج الطي العكسي المدرب مسبقًا ProteinMPNN. وهذا يتناقض بشكل صارخ مع الدراسات السابقة ذات الصلة التي لم تأخذ في الاعتبار بشكل صريح احتمالية وجود حالات غير مرتبطة في الدورة الديناميكية الحرارية.
أخيرا،واقترح فريق البحث أيضًا طريقة تسمى BA-DDG.تم ضبط دورة BA بدقة من خلال محاذاة بولتزمان باستخدام بيانات ملصق تغيير الطاقة الحرة الملزمة. يستخدم BA-DDG نفس عملية التوجيه مثل BA-Cycle. الهدف من BA-DDG هو تقليل الفجوة بين التغير الحقيقي في طاقة الارتباط الحرة والتغير المتوقع في طاقة الارتباط الحرة مع الحفاظ على توزيع النموذج المدرب مسبقًا الأصلي.
أجرى فريق البحث سلسلة من التحقق التجريبي على مجموعة بيانات SKEMPI v2.ومن بينها، مجموعة بيانات SKEMPI v2 هي مجموعة بيانات طفرة موضحة تحتوي على 348 مجمعًا بروتينيًا، بما في ذلك 7085 طفرة في الأحماض الأمينية بالإضافة إلى التغيرات في المعلمات الديناميكية الحرارية وثوابت معدل الحركة.
هناك 7 مؤشرات تقييم في المجموع، بما في ذلك 5 مؤشرات عامة، وهي معامل ارتباط بيرسون، ومعامل ارتباط رتبة سبيرمان، ومتوسط خطأ الجذر التربيعي الأدنى (RMSE)، ومتوسط الخطأ المطلق الأدنى (MAE) وAUROC. بالإضافة إلى ذلك، قام فريق البحث بتجميع الطفرات وفقًا لخصائصها البنيوية وقام بحساب معامل ارتباط بيرسون ومعامل ارتباط سبيرمان لكل مجموعة كمؤشرين إضافيين.
قام فريق البحث أولاً بمقارنة BA-Cyale و BA-DDG مع طرق SOTA غير الخاضعة للإشراف والطرق الخاضعة للإشراف،هناك ثلاثة أنواع من الطرق غير الخاضعة للإشراف، بما في ذلك وظائف الطاقة التجريبية التقليدية مثل Rosetta Cartesian ∆∆G وFoldX؛ الأساليب القائمة على التسلسل/التطور مثل ESM-1v، ومصفوفة التسجيل المحددة للموضع (PSSM)، ومحول MSA، وTranception؛ والطرق المدربة مسبقًا استنادًا إلى المعلومات البنيوية التي لم يتم تدريبها على علامات ∆∆G، مثل ESM-1F، وMIF-∆logits، وRDE-Linear، وB-factor.
تنقسم الأساليب الخاضعة للإشراف إلى فئتين، بما في ذلك نماذج التعلم الشاملة مثل DDGPred و End-to-End؛ وطرق التدريب المسبق القائمة على المعلومات البنيوية، والمضبوطة على ∆∆G، بما في ذلك MIF-Network، وRDE-Network، وDiffAffinity، وPrompt-DDG، وProMIM، وSurface-VQMAE.
وتظهر النتائج أنيتفوق BA-DDG على جميع الخطوط الأساسية في جميع مقاييس التقييم.ومن بينها بلغ معامل ارتباط بيرسون ومعامل ارتباط سبيرمان تحت الطريقة المشرفة 0.5453 و0.5134 على التوالي. ويسلط التحسن الكبير في ارتباط كل هيكل الضوء على موثوقيته العالية في التطبيقات العملية؛يحقق BA-Cycle أداءً مماثلاً لوظيفة الطاقة التجريبية ويتفوق على جميع خطوط الأساس للتعلم غير الخاضع للإشراف.كما هو موضح في الشكل التالي:

بالإضافة إلى ذلك، فإنه من الواضح في التحليل البصري ذي الصلة أنتتفوق BA-DDG على الطرق الأخرى في كل من التصور النوعي والقياسات الكمية.كما هو موضح في الشكل التالي:

بالإضافة إلى ذلك، أجرى الباحثون تجارب على التنبؤ بطاقة الارتباط، والالتحام البروتيني، وتحسين الأجسام المضادة، وأظهرت النتائج إمكانية تطبيقها على نطاق واسع. وستلعب هذه التأثيرات الإيجابية دوراً بالغ الأهمية في تصميم الأدوية والفحص الافتراضي، مما يضع الأساس النظري لتطبيقها الفعلي في المستقبل.
تنمية التعلم الآلي والرؤية الآلية بشكل عميق لتحقيق عالمية الذكاء الاصطناعي
في هذه الدراسة، استخدم الباحثون نظريات متعددة التخصصات لتوفير وجهات نظر جديدة لتحليل تسلسل البروتين، وفي الوقت نفسه شكلوا إطارًا بحثيًا منهجيًا من خلال تكامل النموذج المبتكر وتحسين النموذج. لا تساعد هذه الطريقة البحثية التدريجية على فهم العلاقة بين تسلسل البروتين وتغيرات الطاقة الحرة بشكل كامل وعميق فحسب، بل توفر أيضًا فكرة جديدة للأبحاث اللاحقة.
ومن الجدير بالذكر أنيعد البروفيسور شين تشون هوا، أحد المشاركين الرئيسيين في هذا البحث، ملتزمًا بأبحاث التعلم الآلي والرؤية الحاسوبية لفترة طويلة.وقد نشر أكثر من 150 ورقة بحثية حتى الآن، بما في ذلك بعض الأوراق على منصات أكاديمية مشهورة دوليًا مثل TPAMI وIJCV. بعد شهرين فقط من حلول عام 2025، نجح الفريق الذي يقوده البروفيسور شين تشون هوا في التوصل إلى نتائج مهمة، من خلال نشر ثلاث أوراق بحثية على منصة الطباعة المسبقة arXiv.
في المقال الأول، طورت مجموعة البحث التابعة للبروفيسور شين تشون هوا نموذجًا يعتمد على الحمض النووي استنادًا إلى شبكة CNN، وأطلق عليه اسم ConvNova. يعتبر هذا النموذج بسيطًا في التصميم ولكنه يتمتع بأداء رائع.وفي مهمة الهيستون ذات الصلة، تجاوز متوسط النتيجة طريقة المركز الثاني 5.8%، مما أدى إلى تحقيق حسابات أسرع مع معلمات أقل.وفي الوقت نفسه، تتحقق هذه الطريقة أيضًا من أن الطريقة القائمة على بنية شبكة CNN تتمتع بإمكانيات تنافسية قوية مقارنة بالطرق القائمة على شبكة المحولات وشبكة SSM. وقد نُشر البحث ذو الصلة تحت عنوان "إعادة النظر في بنية الالتفاف في مجال نماذج أساس الحمض النووي".
* عنوان الورقة:
https://arxiv.org/abs/2502.18538
في المقال الثاني، قامت مجموعة البحث التابعة للبروفيسور شين تشون هوا ومختبر الذكاء الاصطناعي في شنغهاي بتطوير نموذج الرؤية العامة DICEPTION بشكل مشترك.يتم استخدام نموذج الانتشار المدرب مسبقًا لحل مشكلات الإدراك البصري متعددة المهام، والذي يتطلب بيانات تدريب أقل ويتمتع بقدرة قوية على التكيف مع المهام.باستخدام 0.06% فقط من بيانات SAM، يحقق النموذج مستوى مماثلاً لمستوى نماذج SOTA في مهام مثل التجزئة، ويقلل بشكل كبير من تكاليف التدريب عن طريق توحيد مخرجات المهام من خلال الترميز اللوني. نُشر البحث ذو الصلة تحت عنوان "DICEPTION: نموذج انتشار عام للمهام الإدراكية البصرية".
* عنوان الورقة:
https://arxiv.org/pdf/2502.17157
وفي المقال الثالث، اقترح فريق البروفيسور شين تشون هوا، بالتعاون مع علي بابا، معيارًا يسمى PhyCoBench، والذي يستخدم لتقييم قدرة نماذج توليد الفيديو على توليد مقاطع فيديو تتوافق مع قوانين الفيزياء. وتقدم الدراسة أيضًا نموذج التقييم التلقائي PhyCoPredictor، وهو نموذج انتشاري يعمل على توليد التدفق البصري وإطارات الفيديو بطريقة متتالية. من خلال مقارنة تقييم الاتساق بين الفرز التلقائي والفرز اليدوي،تظهر النتائج التجريبية أن PhyCoPredictor لديه القدرة الأقرب إلى التقييم البشري.نُشر البحث ذو الصلة تحت عنوان "معيار التماسك الفيزيائي لتقييم نماذج توليد الفيديو عبر التنبؤ بالإطار الموجه بالتدفق البصري".
* عنوان الورقة:
https://arxiv.org/pdf/2502.05503
ولم يحقق فريق البروفيسور شين تشون هوا نتائج مثمرة فحسب، بل كان تأثيره الشخصي بارزًا أيضًا. لقد كانت الأوراق البحثية ذات الصلة التي نشرها البروفيسور شين تشون هوا دائمًا مصدرًا مهمًا للاستشهادات في مجتمع البحث العلمي. كما تم اختياره ضمن قائمة "الباحثين الصينيين الأكثر استشهاداً لعام 2023" التي أصدرتها شركة Elsevier، وهي شركة تحليل معلومات عالمية.
يشغل البروفيسور شين تشون هوا حاليًا منصب أستاذ كرسي تشيوشي ونائب مدير المختبر الوطني الرئيسي للتصميم بمساعدة الكمبيوتر وأنظمة الصور في جامعة تشجيانغ منذ ثلاث سنوات. ولم يحقق نتائج بحثية مثمرة فحسب، بل حقق أيضًا نتائج تدريسية كبيرة، وقام بتدريب العديد من طلاب الماجستير والدكتوراه. علاوة على ذلك، يعمل المختبر الوطني الرئيسي للتصميم بمساعدة الكمبيوتر وأنظمة الرسومات، حيث يقع، كواجهة تربط بين "الصناعة والجامعة والبحث"، وقد حقق أيضًا تنمية متعددة الأوجه في السنوات الأخيرة. وقد تعاونت مع العديد من الشركات بما في ذلك Ant وأصبحت قاعدة ابتكار للبحث العلمي وقاعدة لتدريب المواهب وقاعدة لاحتضان الابتكار.