نُشرت في مجلة الطبيعة! يستخدم فريق جامعة بكين الذكاء الاصطناعي للتنبؤ باتجاه تطور فيروسات كوفيد-19/الإيدز/الإنفلونزا، مع تحسن في الدقة بمقدار 67%

في ديسمبر 2019، اندلع جائحة كوفيد-19 فجأة. هذا المرض الذي يسببه فيروس SARS-CoV-2 معدي للغاية. في شهر واحد فقط، تجاوز عدد الحالات في بلدي الألف حالة، وانتشر بسرعة إلى العالم.
من أجل مكافحة انتشار الفيروس بشكل أكبر، أطلقت بلادنا سياسة التطعيم المجاني الشامل في أوائل عام 2021. ومع ذلك، حتى مع دعم اللقاحات، أصبحت الأزمة الصحية معقدة بشكل متزايد.ويرجع ذلك إلى أن فيروس SARS-CoV-2 يواصل التحور.وبالتكيف تدريجيا مع الضغط المناعي الذي يولده اللقاح والظروف البيئية المتغيرة، اختفت سلالة الفيروس التي تم اكتشافها في الأصل في ووهان منذ فترة طويلة، وحل محلها سلالات متحولة مختلفة، والتي تستمر في إحداث موجة جديدة من العدوى، وسيستمر تأثيرها حتى بعد عام 2023.
وبالمصادفة، استمر معدل الإصابة بفيروس الإنفلونزا في الارتفاع مؤخرًا، وأصيب العديد من الأشخاص بفيروس الإنفلونزا أ (A19) دون أن يعرفوا ذلك. على غرار فيروس SARS-CoV-2، فإن فيروس A19 شديد العدوى أيضًا، وينتشر بسرعة، ويتحور بسرعة. وقد تظهر أنواع فرعية متعددة من الفيروس في نفس الموسم، مما يزيد أيضًا من خطر تكرار الإصابة في السكان خلال فترة زمنية قصيرة.
ويظهر هذا أن التنبؤ باتجاه تطور الفيروس أمر بالغ الأهمية للوقاية والسيطرة وتصميم اللقاحات والأدوية.ومع ذلك، فإن الطفرة، باعتبارها أساس تطور الفيروس، عشوائية إلى حد كبير، وبالتالي فإن عددا صغيرا للغاية من الطفرات عادة ما يكون قادرا على "زيادة" قدرة الفيروس على التكيف. هذا الخلل بين العينات الإيجابية (الطفرات المفيدة) والعينات السلبية (الطفرات الضارة) يجعل من الصعب للغاية تدريب نموذج التعلم العميق الذي يمكنه التنبؤ بالطفرات المفيدة النادرة للفيروس. وفي الوقت نفسه، غالباً ما تتحور الفيروسات في عدد قليل من المواقع فقط، مما يجعل من الصعب على الشبكات العصبية التقاط التغيرات الضعيفة في التفاعلات داخل الجزيئات الناجمة عن الطفرات بشكل مباشر، ويسبب أيضاً مشاكل في النمذجة.
وفي هذا الصدد، قام البروفيسور تيان يونج هونغ والأستاذ المساعد تشين جيه من كلية هندسة المعلومات بجامعة بكين، إلى جانب الباحث تشو بينج من مختبر قوانغتشو الوطني، بتوجيه طالب الدكتوراه ني تشيوي وطالب الماجستير ليو شو دونج لإعادة النظر في مشكلة التنبؤ بالتطور الفيروسي واقترحوا إطار عمل للتنبؤ بقوة دافعة لطفرة الفيروس المدفوعة بالتطور E2VD.يمكن لهذا الإطار التنبؤ بالاتجاه التطوري لفيروس SARS-CoV-2، وفيروس الإنفلونزا، وفيروس زيكا، وفيروس نقص المناعة البشرية (الإيدز)، مما يحسن بشكل كبير سرعة الاستجابة البشرية للعدوى الفيروسية الناشئة ويوفر دعماً مهماً للتحسين السريع للقاحات والأدوية.
نُشر البحث في مجلة Nature Machine Intelligence في 17 يناير 2025 تحت عنوان "إطار عمل موحد للتعلم العميق مدفوع بالتطور للتنبؤ بمحركات تباين الفيروسات".

عنوان الورقة:
https://www.nature.com/articles/s42256-024-00966-9
عنوان الورقة: تابع الحساب الرسمي ورد على "التطور الفيروسي" للحصول على ملف PDF كامل
يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:
https://github.com/hyperai/awesome-ai4s
مجموعة البيانات: مجموعة بيانات التدريب المسبق UniRef90 ومجموعة بيانات المسح العميق للطفرات الفيروسية
ستعمل الفيروسات بشكل مستمر على توليد طفرات جديدة وتراكمها بشكل انتقائي أثناء عملية التطور. لذلك، يحتاج نموذج لغة البروتين للسيناريوهات التطورية إلى أن يتمتع بقدرات قوية على تعميم العينة الصفرية، أي أنه يحتاج إلى أن يكون قادرًا على التعامل مع الطفرات غير المرئية. ولتحقيق ذلك،اختار فريق البحث UniRef90 كمجموعة بيانات للتدريب المسبق لنموذج لغة البروتين. يحتوي UniRef90 على معلومات تطورية غنية على مستوى التسلسل دون التأثير سلبًا على الأداء في المراحل المبكرة من تدريب النموذج. تسمح هذه المعلومات التطورية الغنية للنموذج بالتعرض لعدد كافٍ من عينات تسلسل عائلة البروتين أثناء التدريب المسبق، وبالتالي تحسين قدرته على تعميم العينة الصفرية.
بالإضافة إلى ذلك، لدعم نموذج تعلم المشهد التطوري للياقة البدنية الناجم عن الطفرات الفيروسية،استخدم فريق البحث مجموعات بيانات مفتوحة المصدر لمسح الطفرات العميقة للعديد من الفيروسات.
العمارة النموذجية: تصميم معماري عالمي مستوحى من التطور
استنادًا إلى تصميمات "تضخيم الطفرة الضعيفة" و"استخراج الطفرات المفيدة النادرة"، اقترح فريق البحث إطار عمل للتنبؤ بقوة دافعة الطفرة الفيروسية المدفوعة بالتطور E2VD. كما هو موضح في الشكل أ أدناه،يتضمن بشكل أساسي 3 وحدات:وهي عبارة عن ترميز تسلسل البروتين، وربط الاعتماد المحلي والعالمي، والتعلم البؤري متعدد المهام.

* أولاً،في وحدة ترميز تسلسل البروتين، قام فريق البحث بتدريب نموذج لغة بروتينية مخصص للتطور الفيروسي بشكل مستقل، والذي يمكنه استخراج خصائص تسلسلات البروتين الفيروسي بدقة؛
* ثانيًا،في وحدة دمج التبعيات التفاعلية المحلية والعالمية، استخدم الباحثون الشبكات العصبية التلافيفية (CNNs) لالتقاط تبعيات التفاعل بين الطفرات والأحماض الأمينية المجاورة، وصمموا آلية انتباه ديناميكية قابلة للتعلم لبناء شبكة تبعيات تفاعلية طويلة المدى على مستوى الزخرفة حيث توجد الطفرة. يحل هذا التصميم بشكل فعال مشكلة صعوبة التقاط التأثيرات الضعيفة الناجمة عن عدد أقل من الطفرات الإجمالية في المتغير؛
* ثم،في وحدة التعلم متعددة المهام، يتم الجمع بين مزايا التعلم متعدد المهام واستراتيجيات التعدين الصعبة للعينات لتحسين الأداء التنبئي للنموذج فيما يتعلق بملاءمة طفرة الفيروس من خلال مشاركة معلمات التدريب متعدد المهام.

والأمر الأكثر أهمية، كما هو موضح في الشكل ب أعلاه، هو أن الفريق صمم دالة فقدان بؤري جديدة متعددة المهام، والتي تدفع النموذج إلى إيلاء المزيد من الاهتمام للطفرات المفيدة النادرة التي يصعب تعلمها بشكل فعال أثناء التدريب، وبالتالي تحسين أداء التنبؤ للطفرات المفيدة النادرة (أي العينات الصعبة) بشكل كبير.

بالإضافة إلى ذلك، وكما هو موضح في الشكل ج أعلاه، يمكن لإطار عمل التنبؤ E2VD تعديل المدخلات والمخرجات بشكل مرن لمهام التنبؤ بلياقة الفيروسات المختلفة. على سبيل المثال، للتنبؤ بالتغيرات في تقارب الارتباط الناجم عن الطفرات، لا يمكن إدخال سوى تسلسل الفيروس؛ للتنبؤ بالتغيرات في قدرة الأجسام المضادة على الهروب الناجمة عن الطفرات، يمكن إدخال كل من تسلسل الفيروس وتسلسل الأجسام المضادة، وما إلى ذلك، وبالتالي تحقيق تنبؤات تطورية عالية الدقة عبر أنواع الفيروسات والسلالات على بنية موحدة.
على وجه التحديد، في الدراسة، تم استخدام إطار عمل E2VD لمهام التنبؤ المتعلقة بفيروس SARS-CoV-2، والإنفلونزا (فيروس الإنفلونزا)، وزيكا (فيروس زيكا)، وفيروس نقص المناعة البشرية (فيروس الإيدز):
* تشمل مهام SARS-CoV-2 التنبؤ بتقارب الارتباط والتعبير وهروب الأجسام المضادة، وهي المحركات الرئيسية لطفرة الفيروس.
* المهمة بالنسبة لفيروسات الإنفلونزا وزيكا وفيروس نقص المناعة البشرية هي التنبؤ بتأثير اللياقة البدنية الناجم عن الطفرات من أجل تحليل قدرة النموذج على التعميم.
النتائج التجريبية: تعمل E2VD على تحسين دقة التنبؤ بالطفرات المفيدة بواسطة 67%، وتتمتع بأداء تعميم ممتاز
يمكن لـ E2VD التقاط أنماط التطور الفيروسي بدقة وتحسين دقة التنبؤ بالطفرات المفيدة بواسطة 67%
قام الفريق بمقارنة أداء التنبؤ للغة البروتين المخصصة للسيناريوهات التطورية مع أداء نموذج لغة البروتين السائد. وأظهرت النتائج أن نموذج لغة البروتين المخصص الذي صممه الفريق حقق أفضل أداء للتنبؤ مع ما لا يقل عن 340 مليون معلمة نموذجية، متجاوزًا حتى نموذج ESM2-15B، الذي يحتوي على 44 ضعف عدد المعلمات. يثبت هذا فعالية مجموعة البيانات المخصصة للتدريب المسبق واستراتيجية التدريب.
وبعد ذلك، قام الفريق بمقارنة E2VD بالطرق السائدة في مهام التنبؤ بالقوة الدافعة التطورية الفيروسية الرئيسية المختلفة. وأظهرت النتائج أن E2VD تفوقت بشكل كبير على الطرق الأخرى، مع تحسينات في الأداء تتراوح من 7% إلى 21%. وعلاوة على ذلك، من أجل إثبات قدرة E2VD على التقاط أنماط التطور الفيروسي بدقة، مثل التمييز بدقة بين أنواع مختلفة من الطفرات واستخراج الطفرات المفيدة النادرة بدقة، أجرى الباحثون تجارب متعددة.

أ: بدون MT يعني E2VD بدون وحدة MT؛ بدون LG يعني E2VD بدون وحدة LG؛ بدون MT&LG يعني E2VD بدون وحدة MT&LG
ب: ثلاثة أنواع من الطفرات مع مستويات المخاطر الموصوفة في مهمة التنبؤ بتقارب الارتباط
د: قدرة الخسائر المختلفة على التقاط الطفرات المفيدة النادرة
أولاً، يتم إجراء دراسات استئصال الوحدة لاستكشاف مساهمات وحدة اندماج التبعية للتفاعل المحلي العالمي (LG) ووحدة التعلم البؤري متعدد المهام (MT) في أداء التنبؤ. وكما هو موضح في الشكل (أ) أعلاه، وجدت الدراسة أن وحدة MT فعالة في استخراج الطفرات المفيدة النادرة في اللياقة الفيروسية (زاد معدل الاسترجاع من 0 إلى 69.63%). إن الجمع بين وحدة LG ووحدة MT يمكن أن يؤدي إلى تحسين أداء النموذج بشكل أكبر، بدقة 91.11%، واسترجاع 96.3%، ومعامل ارتباط 0.87.
يمكن لوظيفة فقدان البؤرة متعددة المهام التي اقترحها الفريق أن تعمل على تحسين أداء التنبؤ بشكل كبير. لتقييم قدرة فقدان التركيز متعدد المهام في التقاط الطفرات المفيدة النادرة، اختار الباحثون الطفرات المفيدة والضارة التمثيلية لتشكيل مجموعة اختبار.
* من حيث التنبؤ بالطفرات المفيدة، كما هو موضح في الشكل د أعلاه، تعمل E2VD على تحسين دقة التنبؤ بالطفرات المفيدة النادرة من 13% إلى 80%، مما يحقق تحسنًا كبيرًا في الدقة، وبالتالي استخراج الطفرات المفيدة النادرة بدقة وكفاءة والتي تعتبر حاسمة للتطور الفيروسي.
* بالنسبة للطفرات الضارة، فإن فقدان البؤرة متعدد المهام وBCE&MSE التقليديين يعملان بشكل مشابه. يرجع ذلك إلى أن BCE&MSE لا يستطيع مساعدة النموذج في تعلم الطفرات المفيدة النادرة، مما يجعل النموذج يميل إلى التنبؤ بجميع الطفرات باعتبارها طفرات ضارة.
وكما هو موضح في الشكل ب أدناه، استخدم الباحثون تحليل المكونات الأساسية (PCA) لتوضيح الانخفاض في أبعاد ثلاثة أنواع من الطفرات في الأنفلونزا وزيكا وفيروس نقص المناعة البشرية. وأظهرت النتائج أنه بعد المعالجة بواسطة وحدة LG، تم التمييز بوضوح بين خصائص الطفرات المختلفة مع وجود حدود واضحة. ويشير هذا إلى أن LG يمكن أن يعزز حساسية E2VD لأنواع الطفرات المختلفة من خلال التقاط وإعادة بناء شبكة التفاعل داخل الجزيء، وبالتالي توفير فهم أفضل للتكيف التطوري للفيروس.

يتمتع E2VD بأداء تعميم ممتاز ويمكنه إجراء تنبؤات عبر أنواع الفيروسات والسلالات
تستمر الفيروسات في التطور تحت ضغط الانتقائية، مما قد يؤدي إلى ظهور سلالات متعددة. على سبيل المثال، يشتمل فيروس الإنفلونزا الذي اجتذب الكثير من الاهتمام في الآونة الأخيرة على أنواع متعددة ويُظهِر طفرات موسمية. لذلك، فإن قدرة النموذج على التعميم أمر بالغ الأهمية للتعامل مع اتجاهات تطور الفيروسات المعقدة. واقترح الباحثون "نسبة الزوج الترتيبي" (OPP) لتقييم قدرة النموذج على التعميم في التنبؤ بسلالات مختلفة من نفس الفيروس وأنواع مختلفة من الفيروسات.
* يمثل OPP نسبة أزواج الطفرات المتوقعة بشكل صحيح بين جميع أزواج الطفرات. كلما كانت قيمة OPP أكبر، كانت المناظر الطبيعية التكيفية المتوقعة أقل فوضوية، مما يشير إلى أن النموذج أكثر قدرة على التنبؤ بالترتيب النسبي لمحركات الطفرة الفيروسية.
كما هو موضح في الشكل ب أدناه، بالنسبة لمهمة التنبؤ بتقارب الارتباط عبر السلالات، قام الباحثون بتقييم OPP لست سلالات مختلفة وجميع البيانات المختلطة للسلالات (الكل)، ووجدوا أن E2VD تفوق بشكل كبير على الطرق الأخرى في جميع الحالات. كما هو موضح في الشكل ج أدناه، يتفوق E2VD على الطرق الأخرى في مهمة التنبؤ بمستوى التعبير لمعظم السلالات. بشكل عام، يتفوق E2VD بشكل شامل على الطرق الحديثة على السلالات خارج التوزيع، مما يدل على أداء قابل للتعميم بدرجة كبيرة.

* ب، ج: يتنبأ E2VD بـ OPP لسلالات الفيروس المختلفة؛ د، هـ، و: يتنبأ E2VD بأداء أنواع مختلفة من الفيروسات
وكما هو موضح في الأشكال د، هـ، و و أعلاه، وجد الباحثون في التنبؤات بأنواع الفيروسات المتقاطعة أن E2VD أظهرت قدرات تعميم مثالية لفيروس كورونا الجديد، وفيروس زيكا، وفيروس الإنفلونزا، وفيروس نقص المناعة البشرية، متجاوزة بشكل شامل الطرق الأخرى، وقد يتم توسيعها لتشمل فيروسات أكثر عدوى في المستقبل.
تتمتع الذكاء الاصطناعي بإمكانيات كبيرة في التنبؤ بالتطور الفيروسي
أعاد البحث المذكور أعلاه استكشاف مشكلة التنبؤ بتطور الفيروس من منظور التطور، وبناء إطار عمل عالمي للتنبؤ بالتطور E2VD مناسب لأنواع وسلالات الفيروسات المختلفة. أظهر هذا الإطار أداء تنبؤيًا ممتازًا وقدرة على التعميم في مهام التنبؤ بعوامل محرك طفرة الفيروس المتعددة، مما يجعل من الممكن التنبؤ باتجاهات تطور الفيروس.علاوة على ذلك، فإن الجمع المرن والمخصص بين E2VD يمكنه أيضًا تحقيق التنبؤ بالاتجاهات التطورية على مقاييس مختلفة.
* أولاً، يمكن لـ E2VD تفسير مسار التطور الفيروسي أثناء الأوبئة، مما يساعدنا على فهم أسباب انتشار السلالات والآليات الجزيئية وراءها.
* ثانيًا، بالاقتران مع محاكاة المسح العميق للطفرات الافتراضية، يتمكن E2VD من التنبؤ بالطفرات عالية الخطورة المحتملة، محققًا معدل إصابة يبلغ 80%.
* أخيرًا، يحقق E2VD أيضًا القدرة على التنبؤ بمسار التطور الكلي على نطاق الوباء، وإعادة إنتاج المسار التطوري للفيروس في العالم الحقيقي، وبالتالي توفير الدعم النظري لتفسير آلية تطور الفيروس.
وفي المستقبل، يخطط الفريق لدمج E2VD مع عمليات تصميم اللقاحات والأدوية البروتينية لتحسين كفاءة وإمكانية التحكم في التصميم، وهو ما سيكون له أهمية كبيرة في الوقاية من الفيروسات ومكافحتها وتصميم الأدوية.
ومن الجدير بالذكر أن مؤلفي الدراسة هم البروفيسور تيان يونغ هونغ والأستاذ المساعد تشين جيه من كلية هندسة المعلومات بجامعة بكين، وطلاب الدكتوراه ني تشيوي وطالب الماجستير ليو شو دونغ. ويواصل الفريق التركيز على الأبحاث في مجال الذكاء الاصطناعي للعلوم الحياتية. تم إدراج مشروعهم "قبل تطور الفيروس - التنبؤ بمتغيرات فيروس كورونا عالية الخطورة المستقبلية من خلال محاكاة الذكاء الاصطناعي" بنجاح في القائمة المختصرة لجائزة "Gordon Bell New Crown Special Award" لعام 2022 في نوفمبر 2022 (جائزة Gordon Bell هي أعلى جائزة أكاديمية في مجال تطبيقات الحوسبة عالية الأداء في العالم).
يتمتع الفريق بخبرة عميقة في مجال التنبؤ بتطور الفيروسات. في يوليو 2023، نشر الفريق مقالاً بعنوان "الجري أمام التطور - محاكاة تعتمد على الذكاء الاصطناعي للتنبؤ بمتغيرات SARS-CoV-2 عالية الخطورة في المستقبل" في المجلة الدولية لتطبيقات الحوسبة عالية الأداء. على وجه التحديد، قام الباحثون بتدريب نموذج لغوي بروتيني كبير مسبقًا وبناء طريقة فحص عالية الإنتاجية تعتمد على تقارب الارتباط وتوقع هروب الأجسام المضادة. هذه هي الدراسة الأولى حول محاكاة طفرات RBD لفيروس SARS-CoV-2. نجح النموذج في التعرف على الطفرات في منطقة RBD لخمسة متغيرات مثيرة للقلق وفحص ملايين المتغيرات المحتملة في بضع ثوانٍ، مما يوفر وسيلة تقنية للوقاية من الأوبئة والسيطرة عليها في شكل نموذج "AI + HPC" (الذكاء الاصطناعي + الحوسبة عالية الأداء).
رابط الورقة:
https://journals.sagepub.com/doi/abs/10.1177/10943420231188077
بالإضافة إلى ذلك، قام الفريق بتطوير سلسلة من النماذج الأساسية للعلوم الحياتية. وبأخذ مهمة التنبؤ بتفاعل "الإنزيم والركيزة"، وهي مهمة في هندسة الإنزيم، كمثال، أصدر الفريق مقالة أولية في ديسمبر 2024، تقترح إطار عمل التعلم العميق المشروط التدريجي MESI للتنبؤ بتفاعل الإنزيم والركيزة متعدد الأغراض.
رابط الورقة:
https://www.researchsquare.com/article/rs-5516445/v1
على وجه التحديد، من خلال فصل نمذجة تفاعلات الإنزيم والركيزة إلى عملية تعلم من مرحلتين، تم تصميم شبكتين مشروطتين لتقديم معلومات حول خصوصية تفاعل الإنزيم ومعلومات التفاعل التحفيزي الرئيسية، على التوالي، وبالتالي تسهيل الانتقال التدريجي لمساحة الميزة الكامنة من المجال العام للبروتينات والجزيئات الصغيرة إلى المجال الواعي للتحفيز. يتفوق النموذج باستمرار على الأساليب الحديثة في مختلف المهام اللاحقة. علاوة على ذلك، تلتقط الشبكة الشرطية المقترحة ضمناً الأنماط الأساسية لتحفيز الإنزيم مع تكلفة حسابية إضافية لا تذكر. وبدعم من آلية الاستشعار الشرطي هذه، يمكن للنموذج تحديد المواقع النشطة بدقة واستكشاف بقايا الإنزيمات والمجموعات الوظيفية للركيزة المشاركة في التفاعلات التحفيزية الرئيسية بطريقة فعالة ومنخفضة التكلفة دون الحاجة إلى أي معلومات هيكلية.
وبمساعدة الذكاء الاصطناعي، سيعمل الفريق على تعزيز البحث المتعمق في المجالات ذات الصلة بالذكاء الاصطناعي لعلوم الحياة، وفتح المزيد من الاحتمالات للتنبؤ بالفيروسات، وتصميم الأدوية البروتينية، وتطوير اللقاحات، وما إلى ذلك. ونحن نتطلع إلى المزيد من إنجازاتهم.
مراجع:
https://www.who.int/
https://news.pku.edu.cn/jxky/90d276ae5f8441849fd04372fd872154.htm
https://news.pkusz.edu.cn/info/1003/8711.htm
