يسهّل الذكاء الاصطناعي تحقيق إنجازات تاريخية في أبحاث فيروسات الحمض النووي الريبوزي (RNA). واستخدمت جامعة صن يات صن وغيرها نماذج التعلم العميق لاكتشاف أكثر من 160 ألف فيروس جديد

في أوائل عام 2020، خيم ظل فيروس كورونا الجديد على العالم بسرعة. وفي هذا السباق مع الزمن، شهدنا عددًا لا يحصى من الأفراد والفرق الشجاعة يتقدمون إلى الأمام، وخضع النظام الاجتماعي لاختبارات قاسية مرارًا وتكرارًا، كما دق ناقوس الخطر في مجال الصحة العامة العالمية.
إن فيروس كورونا يثير الخوف إلى حد كبير لأنه فيروس من نوع الحمض النووي الريبوزي (RNA). يفتقر هذا النوع من الفيروسات إلى آلية تصحيح الأخطاء أثناء التكاثر وهو عرضة للتحور. لا تسمح هذه القدرة على الطفرة للفيروسات ذات الحمض النووي الريبوزي بالانتشار عبر الأنواع وتوسيع نطاق مضيفها فحسب، بل قد تسبب أيضًا تغييرات في القدرة على التسبب في الأمراض. إن الفيروس الذي لا يشكل خطراً على البشر في الأصل قد يصبح مسبباً للأمراض بمجرد تحوره. وبما أن البشر يفتقرون عمومًا إلى المناعة ضد مثل هذه الفيروسات المتحولة، فبمجرد تحور الفيروس، فإنه قد يتسبب بسرعة في حدوث وباء واسع النطاق.
على الرغم من أن الفيروسات ترتبط ارتباطًا وثيقًا بصحة الإنسان، إلا أن هناك ما يزيد على 5000 نوع من الفيروسات المعروفة والمؤكدة لدى البشر، وهذا مجرد غيض من فيض. تعتمد طرق التعرف على الفيروسات الحمض النووي الريبوزي التقليدية بشكل كبير على مقارنة تشابه التسلسل، أي أن التعرف يتم عن طريق مقارنة أوجه التشابه في التسلسل بين الفيروسات غير المعروفة والفيروسات المعروفة. لكن،نظرًا لأن فيروسات الحمض النووي الريبوزي عديدة ومتباينة للغاية، فمن الصعب بالطرق التقليدية التقاط "فيروسات المادة المظلمة" التي تفتقر إلى التشابه أو لها تشابه منخفض للغاية.وهذا يحد من كفاءة اكتشاف الفيروسات الجديدة.
خلال السنوات العشر الماضية، كان للأساليب المتعلقة بالذكاء الاصطناعي، وخاصة خوارزميات التعلم العميق، تأثير كبير في مختلف مجالات البحث في علوم الحياة. إن الجمع بين الذكاء الاصطناعي وأبحاث علم الفيروسات يوفر طرقًا جديدة للبشر للتغلب على صعوبة التعرف على الفيروسات ذات الحمض النووي الريبي.
حديثاً،اقترح البروفيسور شي مانج من كلية الطب بجامعة صن يات صن، بالتعاون مع جامعة تشجيانغ، وجامعة فودان، وجامعة الزراعة الصينية، وجامعة مدينة هونج كونج، وجامعة قوانغتشو، وجامعة سيدني، ومختبر علي بابا كلاود فيتيان، وغيرها، نموذج التعلم العميق الجديد LucaProt.ويستخدم النموذج الحوسبة السحابية وتكنولوجيا الذكاء الاصطناعي لاكتشاف 180 مجموعة عظمى وأكثر من 160 ألف فيروس RNA جديد، وهو ما يقرب من 30 ضعف عدد الفيروسات المعروفة. لقد عزز بشكل كبير فهم الصناعة لتنوع فيروس الحمض النووي الريبي وتاريخ التطور الفيروسي. واكتشفت الدراسة أيضًا أطول جينوم فيروسي من نوع RNA حتى الآن، حيث يصل طوله إلى 47250 نوكليوتيدًا، مما يمثل تقدمًا كبيرًا في مجال التعرف على فيروسات RNA.
ونشرت الدراسة في المجلة الأكاديمية الدولية Cell تحت عنوان "استخدام الذكاء الاصطناعي لتوثيق الغلاف الفيروسي RNA المخفي".
أبرز الأبحاث:
* حققت تقنية التعدين الميتاجينومي التي تعتمد على الذكاء الاصطناعي توسعًا غير مسبوق في تنوع فيروس الحمض النووي الريبي العالمي
* من خلال التعريف الدقيق، تم الكشف عن وجود 161,979 نوعًا محتملًا من فيروسات الحمض النووي الريبوزي و180 مجموعة فيروسية فائقة.
* توصلت الدراسة إلى أطول جينوم فيروسي RNA حتى الآن، والذي قد يكون له خصائص هيكلية معيارية

عنوان الورقة:
https://doi.org/10.1016/j.cell.2024.09.027
اتبع الحساب الرسمي ورد "تعريف فيروس RNA" للحصول على ملف PDF كامل
يجمع المشروع المفتوح المصدر "awesome-ai4s" أكثر من مائة تفسير ورقي لـ AI4S ويوفر مجموعات وأدوات ضخمة من البيانات:
https://github.com/hyperai/awesome-ai4s
مجموعة البيانات: تغطي مختلف النظم البيئية في جميع أنحاء العالم، وتتنوع فيروسات الحمض النووي الريبوزي
أجرت هذه الدراسة في البداية بحثًا منهجيًا في قواعد البيانات مثل NCBI SRA وCNGBdb، بهدف إجراء بحث معمق حول تنوع فيروسات الحمض النووي الريبي في النظم البيئية المختلفة حول العالم.
وكما هو موضح في الشكل (أ) أدناه، قام فريق البحث بفحص إجمالي 10,487 مجموعة بيانات من عينات البيئة البيولوجية العالمية.بلغ إجمالي بيانات التسلسل المعنية 51 تيرابايت، مما أدى إلى توليد أكثر من 1.3 مليار قطعة و872 مليون بروتين متوقع.وباستخدام هذه المجموعات الكبيرة من البيانات، كشف الباحثون عن RdRPs الفيروسية المحتملة وقاموا بالتحقق من صحتها، ثم قاموا بالتحقق منها باستخدام استراتيجيتين مختلفتين.

من خلال الجمع بين نتائج إستراتيجيتي البحث،توصلت الدراسة إلى وجود 513,134 جينوم فيروسي تمثل 161,979 نوعًا فيروسيًا محتملًا و180 مجموعة فيروسية فائقة من الحمض النووي الريبوزي.ويساهم هذا الاكتشاف في توسيع فهم الدراسة لمجموعة الفيروسات الحمض النووي الريبوزي بشكل كبير، إذ يزيدها بنحو 9 مرات وعدد الأنواع الفيروسية بنحو 30 مرة.
كما هو موضح في الشكل C أدناه، قامت هذه الدراسة بمقارنة تسلسلات بروتين RdRP في دراسات أخرى.تم الكشف عن ما مجموعه 70,458 نوعًا فيروسيًا فريدًا تم التعرف عليه حديثًا.

وكشفت الدراسة أيضًا عن 60 مجموعة عظمى لم يتم التعرف عليها أو استكشافها من قبل،ولم تحظ هذه المجموعات الكبرى إلا باهتمام محدود حتى الآن. ومن الجدير بالملاحظة بشكل خاص، كما هو موضح في الشكل د أدناه، أن الدراسة وجدت أن 23 من هذه المجموعات الفائقة لا يمكن تحديدها بواسطة طرق التماثل التسلسلي التقليدية، وتسمى هذه المجموعات "المادة المظلمة" في الغلاف الفيروسي.

LucaProt: نموذج التعلم العميق القائم على البيانات والذي يفتح آفاقًا جديدة لأبحاث علم الفيروسات
طورت الدراسة نموذج التعلم العميق القائم على البيانات، LucaProt. كما هو موضح في الشكل E أدناه، يتكون LucaProt من خمس وحدات أساسية: الإدخال، والمرمز، والمشفر، والتجميع، والإخراج:
* مدخل:المسؤول الرئيسي عن استقبال تسلسلات الأحماض الأمينية؛
* الرمز المميز:المسؤول الرئيسي عن تحويل التسلسل الأصلي إلى تنسيق يمكن للنموذج فهمه. تتضمن هذه الوحدة إنشاء مجموعة تتكون من تسلسلات RdRP الفيروسية وغير الفيروسية وإنشاء مفردات باستخدام خوارزمية BPE لتحليل تسلسلات البروتين إلى أحماض أمينية فردية لاستخراج المعلومات البنيوية؛
* المشفر:وهي مسؤولة بشكل أساسي عن تحويل البيانات إلى نموذجين للتمثيل، الأول هو مصفوفة تمثيل التسلسل التي يولدها Transformer-Encoder، والثاني هو مصفوفة تمثيل البنية التي يولدها نموذج التنبؤ بالبنية ESMFold. لا تحل طريقة التمثيل ثنائية المسار هذه مشكلة ندرة البيانات الهيكلية ثلاثية الأبعاد فحسب، بل تعمل أيضًا على تحسين الكفاءة الحسابية؛
* التجميع:وهي مسؤولة بشكل أساسي عن تحويل مصفوفة التسلسل ومصفوفة البنية إلى متجهين من خلال طريقة تجميع الاهتمام على مستوى القيمة (VLAP)، وتقليل البعد واختيار الميزات للتصنيف الفعال.
* الإخراج:وهي مسؤولة بشكل أساسي عن تحويل هذه المتجهات إلى قيمة احتمالية، مما يشير إلى إمكانية أن تكون العينة عبارة عن RdRP فيروسي. تم تصنيف التسلسلات على أنها RdRP فيروسية أو RdRP غير فيروسية حسب الوظيفة السينية.

أخير،أعدت الدراسة بعناية مجموعة بيانات تحتوي على 235,413 عينة.يهدف إلى تحسين دقة النموذج وقدرته على التعميم. تتكون مجموعة البيانات هذه من 5,979 من RdRPs الفيروسية المدروسة جيدًا (عينات إيجابية) و 229,434 من RdRPs غير الفيروسية (عينات سلبية). ويعتمد على إطار عمل المحول وتكنولوجيا توصيف النموذج الكبير، جنبًا إلى جنب مع تسلسل البروتين والسمات البنيوية الجوهرية، ويتفوق على الطرق التقليدية من حيث الدقة والكفاءة والتنوع الفيروسي المكتشف.
والأمر الأكثر أهمية هو أن LucaProt لا يدمج بيانات التسلسل فحسب، بل يدمج أيضًا المعلومات البنيوية، وهو أمر بالغ الأهمية للتنبؤ الدقيق بوظيفة البروتين.
تحديد بنية الجينوم التي تتجاوز المعرفة السابقة، وهو أطول جينوم فيروسي RNA تم اكتشافه على الإطلاق
من أجل تقييم أداء LucaProt بشكل كامل، أجرت الدراسة تحليلًا معمقًا من زوايا متعددة لضمان التحقق الشامل من دقتها وكفاءتها:
* تقييم أداء LucaProt
* التحقق والتأكد من أن المجموعة الفيروسية المكتشفة حديثًا هي فيروس RNA
* تحليل وحدات ومرونة بنية جينوم فيروس الحمض النووي الريبي
* تحليل التنوع الوراثي للفيروسات الحمض النووي الريبي
* تحليل البنية البيئية للفيروسات الحمض النووي الريبوزي العالمية
تم تقييم خمس طرق بشكل مشترك من حيث الأداء، وقام LucaProt بأداء الطريقة الأكثر شمولاً
لتقييم أداء LucaProt، قامت الدراسة بمقارنته بأربع أدوات أخرى لاكتشاف الفيروسات. وتظهر النتائج أنه كما هو موضح في الشكل أ،يظهر LucaProt أعلى معدل تذكر مع الحفاظ على معدل إيجابيات كاذبة منخفض نسبيًا.

من حيث الكفاءة الحسابية، كما هو موضح في الشكل E، يستغرق LucaProt في المتوسط 6 مجموعات بيانات لمعالجة مجموعات البيانات ذات الأطوال المختلفة.أظهرت كفاءة أكثر معقولية.

أخيرًا، تسمح بنية المحول المتقدمة المدمجة في LucaProt بالمعالجة المتوازية لتسلسلات الأحماض الأمينية الأطول، كما هو موضح في الشكل FH.تعد هذه الهندسة المعمارية أكثر فعالية في التقاط العلاقات بين الأجزاء البعيدة من مساحة التسلسل من أجهزة ترميز CNN/RNN المستخدمة عادة في أدوات المعلوماتية الحيوية الأخرى.

التحقق من صحة وتوصيف هيكل مجموعة فيروسات الحمض النووي الريبوزي المكتشفة حديثًا، والتي يظهر معظمها تشابهًا في التسلسل مع RdRPs الموجودة
قام فريق البحث باستخراج وتسلسل الحمض النووي والحمض النووي الريبوزي من 50 عينة بيئية بهدف التحقق من وجود 115 مجموعة فيروسية فائقة تم تحديدها في هذه العينات. كما هو موضح في اللوحة B، تم ربط قراءات تسلسل الحمض النووي الريبي فقط بنجاح بالتسلسلات المرتبطة بـ RdRPs الفيروسية، في حين تم ربط قراءات تسلسل الحمض النووي الريبي والحمض النووي بالتسلسلات المرتبطة بفيروسات الحمض النووي والفيروسات الرجعية (RTs) والكائنات الخلوية على التوالي.
وعلاوة على ذلك، وكما هو موضح في الشكل ج، من خلال تطبيق طريقة تفاعل البوليميراز المتسلسل العكسي الأكثر حساسية، أكد فريق البحث 17 من أصل 115 مجموعة فيروسية فائقة. في هذه المجموعات الفائقة، فشل استخراج الحمض النووي في اكتشاف التسلسلات المشفرة لـ RdRP الفيروسي.وهذا يؤكد بشكل أكبر أن هذه المجموعات الفيروسية الفائقة هي في الواقع كائنات حية ذات RNA.

أطول جينوم فيروسي RNA تم اكتشافه على الإطلاق
وفي تحليل متعمق لتكوين وبنية جينومات فيروس الحمض النووي الريبي المفترضة، وجدت الدراسة أنه على الرغم من أن طول معظم الجينومات كان مركّزًا عند حوالي 2131 نوكليوتيدًا، فإن طول الجينومات أو أجزاء الجينوم المشفرة لـ RdRP كان يختلف بشكل كبير بين المجموعات الفائقة المختلفة. وعلى وجه الخصوص، حددت الدراسة جينومات فيروسية ذات حمض نووي ريبوزي طويلة للغاية من عينات التربة، كما هو موضح في الشكل ج، ويبلغ طول أحدها 47.3 كيلو بايت.وهو أحد أطول فيروسات الحمض النووي الريبوزي المعروفة.وفي هذا الجينوم فائق الطول، اكتشفت الدراسة إطار قراءة مفتوح إضافي يقع بين الطرف الخمسين ومنطقة ترميز RdRP، لكن وظيفته تحتاج إلى مزيد من الدراسة.

معدل توسع أنواع فيروسات الحمض النووي الريبوزي مثير للقلق، وقد توجد فيروسات حمض نووي ريبوزي أكثر تمايزًا في العينات البيئية
ووجدت الدراسة أيضًا أنه كما هو موضح في الشكل أدناه، زاد عدد أنواع فيروسات الحمض النووي الريبوزي 55.9 مرة مقارنة بأنواع الفيروسات التي حددتها اللجنة الدولية لتصنيف الفيروسات (ICTV) وزاد 1.4 مرة مقارنة بجميع تسلسلات RdRP الموصوفة سابقًا. ويظهر هذا التوسع بشكل واضح في التنوع المتزايد للمجموعات الفيروسية المعروفة.

ومن الجدير بالذكر أن بعض المجموعات التي كانت ممثلة في السابق بعدد محدود فقط من الجينومات، مثل AstroPoty، وHypo، وYan، والعديد من المجموعات الفائقة المكتشفة حديثًا، أظهرت مستويات عالية من التنوع التطوري. على سبيل المثال، يحتوي SG023 على 1232 فيروسًا، ويحتوي SG025 على 466 فيروسًا، ويحتوي SG027 على 475 فيروسًا.ويشير هذا إلى أنه قد يكون هناك المزيد من الفيروسات ذات الحمض النووي الريبوزي المتمايزة في العينات البيئية.في انتظارنا لاكتشاف.
لا تزال الفيروسات ذات الحمض النووي الريبوزي تتمتع بالتنوع في البيئات القاسية
وأظهرت الدراسة أن الفيروسات ذات الحمض النووي الريبوزي موجودة في 1612 موقعًا و32 نظامًا بيئيًا حول العالم.كما هو موضح في الشكل أ، حتى في العينات البيئية التي تمت دراستها عدة مرات، وجد LucaProt مجموعة فيروسية جديدة من 5-33.3%.ويشير هذا إلى أن تنوع فيروسات الحمض النووي الريبوزي لم يتم استكشافه بالكامل، وخاصة في التربة والبيئات المائية.
وقارنت الدراسة أيضًا بين التنوع ألفا ووفرة فيروسات الحمض النووي الريبوزي في النظم البيئية المختلفة. وكما هو موضح في الشكل CD، كان تنوع α أعلى في بيئات أوراق الشجر المتساقطة، والأراضي الرطبة، والمياه العذبة، ومياه الصرف الصحي، في حين كانت الوفرة أعلى في الرواسب القطبية الجنوبية، والرواسب البحرية، والنظم البيئية للمياه العذبة. كان التنوع والوفرة في أدنى مستوياتهما في ملح الصخور والبيئات تحت السطحية، بما يتسق مع انخفاض أعداد الخلايا المضيفة. تتمتع الأنواع البيئية المتطرفة مثل الينابيع الساخنة والفتحات الحرارية المائية بتنوع فيروسي منخفض ولكن وفرة معتدلة.

من الأوساط الأكاديمية إلى الصناعة، التقدم الثوري للذكاء الاصطناعي وآفاق المستقبل في أبحاث فيروس الحمض النووي الريبي
في الواقع، أصبح تطبيق الذكاء الاصطناعي في أبحاث فيروس الحمض النووي الريبوزي اتجاهًا قويًا في الاستكشاف العلمي. حقق فريق بحثي بقيادة البروفيسور شي مانج من جامعة صن يات صن تقدماً هائلاً باستخدام تقنية الذكاء الاصطناعي واكتشف أكثر من 160 ألف فيروس RNA جديد. ويشكل هذا الإنجاز علامة فارقة مهمة في هذا المجال.
ولكن في وقت مبكر من عام 2022، سيقوم فريق بحثي دولي، بالتعاون مع علماء من الولايات المتحدة وفرنسا وسويسرا ودول أخرى،تم استخدام تقنية التعلم الآلي للذكاء الاصطناعي لتحديد 5500 فيروس RNA جديد من عينات مياه البحر في جميع أنحاء العالم.ساهم في إنشاء قاعدة بيانات فيروس الحمض النووي الريبوزي. ولا تعمل هذه الدراسة على توسيع نطاق البحث البيئي فحسب، بل تعمل أيضًا على تعميق فهم الناس لتطور فيروسات الحمض النووي الريبوزي (RNA) وتقدم أدلة جديدة لاستكشاف تطور الحياة المبكرة على الأرض.
وقد نشرت نتائج البحث في مجلة ساينس تحت عنوان "الفيروسات البحرية الغامضة والوفيرة في الأصول التطورية لفيروس الحمض النووي الريبوزي للأرض".
* رابط الورقة:
https://doi.org/10.1126/science.abm5847
وبطبيعة الحال، فإن تطبيق الذكاء الاصطناعي في أبحاث فيروسات الحمض النووي الريبوزي لا يقتصر على استكشاف المناطق غير المعروفة، بل هو أيضا أمر حاسم للبحث المتعمق في المجالات المعروفة. على سبيل المثال، يحتوي فيروس كوفيد-19، وهو فيروس RNA، على ما يقرب من 16 مليون تسلسل جينومي في قاعدة بيانات GISAID المشتركة عالميًا. توفر هذه البيانات ثروة من المعلومات للأبحاث، ولكنها تتطلب أيضًا قدرًا كبيرًا من الموارد الحاسوبية والبشرية لتحليل تطور وتاريخ مرض كوفيد-19.
ولمعالجة هذا التحدي، قام علماء من جامعة مانشستر وجامعة أكسفورد في أوائل عام 2024 بتطوير إطار عمل للذكاء الاصطناعي قادر على تحديد وتتبع المتغيرات الجديدة ذات الصلة بـ COVID-19، مما قد يساعد في معالجة الإصابات الأخرى في المستقبل.يجمع الإطار بين تقنيات تقليل الأبعاد مع خوارزمية التجميع القابلة للتفسير الجديدة، CLASSIX، التي طورها علماء الرياضيات في جامعة مانشستر، لتحديد الجينومات الفيروسية التي قد تشكل خطورة بسرعة.وتقدم الدراسة، التي نشرت في وقائع الأكاديمية الوطنية للعلوم، نهجًا جديدًا لتتبع التطور الفيروسي وقد يكون لها تأثير على الطرق التقليدية لتتبع التطور الفيروسي.
وفي الصناعة، يعد استكشاف أبحاث فيروس الحمض النووي الريبوزي (RNA) أيضًا أمرًا نشطًا. بسبب معدل الطفرة المرتفع لفيروسات الحمض النووي الريبوزي (RNA) أثناء التكاثر، كان دراسة فيروسات الحمض النووي الريبوزي (RNA) وتطوير اللقاحات يشكلان دائمًا تحديًا. في النصف الأول من عام 2023، سيتزايد تطبيق تطوير الأدوية بمساعدة الذكاء الاصطناعي.استخدم العلماء في فرع بايدو في كاليفورنيا الذكاء الاصطناعي لتحسين لقاح mRNA بشكل عميق، مما أدى إلى تحسين ليس فقط التسلسل ولكن أيضًا البنية، مما أدى إلى زيادة استقرار الجزيء.وهذا يسمح له بالبقاء نشطًا في جسم الإنسان لفترة أطول من الزمن. إذا ثبت أن هذه التكنولوجيا آمنة، فستصبح أداة قوية لتطوير جيل جديد من لقاحات الحمض النووي الريبي، وقد تقدم أيضًا أفكارًا جديدة لمجال تطوير أدوية الحمض النووي الريبي.
في النصف الثاني من عام 2023، أصدرت شركة Deep Genomics "نموذج أساس RNA يمكّن من اكتشاف آليات المرض والعلاجات المرشحة"، حيث قدمت نموذج أساس الذكاء الاصطناعي الفريد BigRNA. BigRNA هي أول شبكة عصبية محولة لعلم الأحياء والعلاجات المتعلقة بالحمض النووي الريبي، مع ما يقرب من 2 مليار معلمة قابلة للضبط ومدربة على آلاف مجموعات البيانات التي تحتوي على تريليون إشارة جينومية.إنه يمثل جيلًا جديدًا من الذكاء الاصطناعي للتعلم العميق والذي يمكن تطبيقه على مجموعة متنوعة من مهام اكتشاف العلاج المختلفة الخاصة بالحمض النووي الريبي.
وبالنظر إلى المستقبل، فإن آفاق تطبيق الذكاء الاصطناعي في أبحاث فيروسات الحمض النووي الريبوزي واسعة للغاية أيضًا. مع زيادة قوة الحوسبة وتحسين الخوارزميات، قد تتمكن الذكاء الاصطناعي من معالجة مجموعات بيانات أكبر وتحديد مجموعات فيروسية أكثر غير معروفة، بالإضافة إلى مضيفيها ومسارات انتقالها. ولن يؤدي هذا إلى تعميق فهم الناس لدور فيروسات الحمض النووي الريبوزي في النظام البيئي فحسب، بل سيوفر أيضًا دعمًا قويًا للوقاية من الأوبئة المحتملة ومكافحتها في المستقبل.
وعلاوة على ذلك، يشير تطبيق الذكاء الاصطناعي في تصميم اللقاحات وتطوير الأدوية إلى أن الناس قد يتوصلون قريبًا إلى حلول طبية أكثر تخصيصًا ودقة، مما يجلب أملًا جديدًا لأمن الصحة العامة العالمية.