HyperAI

اختراق جديد في أبحاث وتطوير اللقاحات: فريق بيهانغ يقترح طريقة جديدة للتنبؤ بمناعة المستضد الفيروسي، VirusImmu

特色图像

الأمراض المعدية هي نوع من الأمراض الخطيرة التي تشكل خطرا جديا على صحة الإنسان وحياته. من بين أكثر من 4000 فيروس تم اكتشافها حتى الآن، يمكن لأكثر من 100 منها أن تهدد صحة الإنسان وحياته بشكل مباشر. والأمر الأكثر إثارة للخوف هو اكتشاف مسببات أمراض جديدة باستمرار. وبحسب التقارير الإعلامية، فإن من بين 32 مرضاً معدياً جديداً تم اكتشافها في العالم خلال العشرين عاماً الماضية، ظهر حوالي النصف في بلدي.

ومن ثم، فإن تطوير اللقاحات له أهمية خاصة. في العملية الطويلة لتطوير اللقاحات، تتمثل المهمة الأولى في تحديد المستضدات المناعية. تتمتع طرق التعلم الآلي بكفاءة عالية في تحليل البيانات الضخمة مثل البروتينات الميكروبية ويمكنها أن تقلل بشكل كبير من تكلفة العمل التجريبي لتطوير لقاحات جديدة.

قام لي جينغ وآخرون من جامعة بيهانغ بتطوير طريقة مجموعة التعلم الآلي (Viruslmmu) للتنبؤ بمناعة المستضدات الفيروسية، والتي أظهرت إمكانات كبيرة في التنبؤ بمناعة أجزاء البروتين الفيروسي وقدمت أدوات أكثر شمولاً لمطوري اللقاحات. تم نشر المحتوى ذي الصلة على bioRxiv.

عنوان الورقة:
https://www.biorxiv.org/content/10.1101/2023.11.23.568426v1
تابع الحساب الرسمي ورد بـ "مناعة" لتحميل الورقة

مجموعة البيانات: مئات المستضدات المشاركة في التدريب والاختبار

تتكون مجموعات البيانات التدريبية والاختبارية من 100 مستضد (مجموعة إيجابية) و100 غير مستضد (مجموعة سلبية).

عنوان تنزيل مجموعة البيانات:

https://github.com/zhangjbig/VirusImmu/tree/main/data

عملية جمع مجموعات البيانات وبناء النماذج واختيار الميزات

المستضدات الوقائية هي مستضدات بروتينية تم التحقق منها وفحصها من الأدبيات. تسلسلات البروتين المقابلة مأخوذة من UniProt (البروتين العالمي) وNCBI (المركز الوطني لمعلومات التكنولوجيا الحيوية). يفضل استخدام البروتينات ذات الأجزاء الكاملة.
ملاحظة: UniProt هي قاعدة بيانات البروتين الأكثر ثراءً بالمعلومات والموارد.

تم اختيار تسلسلات البروتين غير المحمية (غير المستضدية) بشكل عشوائي من مركز موارد المعلومات الحيوية للفيروسات.

استخدم الباحثون BLAST (أداة البحث عن المحاذاة المحلية الأساسية) للتأكد من أن غير المستضد ليس له هوية تسلسلية مع المستضد واعتمدوا استراتيجية التحقق المتبادل للعينات العشوائية للحصول على مجموعة اختبار من مجموعات البيانات الإيجابية والسلبية لـ 20%. تم إجراء خمسين عملية عشوائية.
ملاحظة: BLAST هي أداة بحث لمقارنة تسلسل الجزيئات البيولوجية الكبيرة.

تم إنشاء مجموعة البيانات الخارجية بشكل مستقل من قبل الباحثين وتتكون من 59 مستضدًا و 54 غير مستضد، حيث تم تجميع تسلسلات المستضد يدويًا من قواعد بيانات UniProt و Protegen، وتم اختيار التسلسلات غير المستضدية بشكل عشوائي من UniProt في نفس طريقة التدريب.

بناء أفضل نموذج للمجموعة VirusImmu

على مدى العقد الماضي، تم تقسيم طرق التنبؤ بمناعة مستضدات البروتين إلى فئتين رئيسيتين: الترشيح والتصنيف. الطريقة الأكثر تمثيلا للتنبؤ بالتصنيف هي VaxiJen، والتي تقترح طريقة للتنبؤ بالمستضدات البكتيرية الواقية.

ومع ذلك، يركز VaxiJen على التنبؤ بالمناعة البكتيرية. من أجل التغلب على قيود VaxiJen، اقترح باحثون من جامعة Beihang طريقة التعلم الآلي المتكاملة VirusImmu للتنبؤ بالمناعة الفيروسية.

على عكس VaxiJen الذي يستخدم خوارزمية انحدار تقليدية واحدة فقط أو يعتمد ببساطة على التصويت بالأغلبية، يتبنى VirusImmu أسلوب التصويت الناعم لتقييم أداء ثمانية نماذج للتعلم الآلي في التنبؤ بمناعة المستضد من خلال استراتيجية التحقق المتبادل للعينات العشوائية.

أجرى الباحثون ما مجموعه 50 جولة من التجارب العشوائية، وفي كل جولة تم تقسيم مجموعة البيانات إلى مجموعة تدريب ومجموعة اختبار بنسبة 8:2. تم تطبيق مجموعة التدريب لتدريب كل نموذج، ومن ثم تم تقييم النماذج المدربة للتنبؤ بالمناعة على مجموعة الاختبار.

متوسط إحصائيات ROC لـ 8 نماذج تعلُّم آلي شائعة الاستخدام

أظهرت إحصائيات ROC المتوسطة لـ 50 جولة من التجارب العشوائية أن RF لديه أقوى قدرة تنبؤية.

من أجل تحسين القدرة التنبؤية للنموذج فيما يتعلق بالمناعة،قام الباحثون ببناء مصنف مجموعة التصويت الناعمة (VirusImmu) استنادًا إلى النماذج الثلاثة الأولى (RF وXGBoost وkNN).يتم ترجيح تنبؤات RF وXGBoost وkNN ودمجها للحصول على مجموع الاحتمالات المرجحة.

لتحديد الأوزان الخاصة بـ RF وXGBoost وkNN، قام الباحثون بإحصاء جميع الأوزان الممكنة لكل منها (232 في المجموع)، وزادوا الأوزان من 0 إلى 1 بزيادات قدرها 0.05، واستخدموا تحليل ROC لتقييم أداء النماذج عند أوزان مختلفة.

تظهر النتائج أن VirusImmu يتفوق على كل نموذج مجموعة اختبار فردية.

يتميز VirusImmu بأداء رائع بغض النظر عن طول تسلسل البروتين

* التجربة المقارنة 1: مقارنة الأداء بين VirusImmu و VaxiJen

يعد VaxiJen أحد الطرق القليلة التي تستخدم الخصائص الفيزيائية والكيميائية لتسلسلات البروتين للتنبؤ بالمناعة. على عكس VirusImmu، يستخدم Vaxijen خوارزمية انحدار تقليدية واحدة أو التصويت بالأغلبية. ولذلك، قام الباحثون بمقارنة أداء VirusImmu مع VaxiJen.

في مجموعة الاختبار، AUC (المساحة تحت المنحنى) لـ VirusImmu هي 0.782، وAUC لـ VaxiJen هي 0.75. يوضح منحنى ROC المتوسط أن VirusImmu أفضل من VaxiJen (الفاصل الزمني للثقة هو 95%).

* التجربة المقارنة 2: مقارنة أداء VirusImmu مع RF وkNN وXGBoost

للتحقق بشكل أكبر من صحة أداء VirusImmu، قام الباحثون بشكل مستقل بجمع مجموعة اختبار خارجية تحتوي على 59 مستضدًا و54 غير مستضد.

يوضح منحنى ROC أن VirusImmu (AUC=0.712) يتفوق على RF (AUC=0.676) وkNN (AUC=0.699)، وأداءه مشابه لأداء XGBoost (AUC=0.717). أظهر VaxiJen أسوأ أداء في مجموعة الاختبار الخارجية (AUC=0.609).

باختصار،أنتجت VirusImmu تنبؤات أكثر استقرارًا للمناعة البروتينية مقارنة بثمانية طرق تنبؤ ML شائعة الاستخدام و VaxiJen في كل من مجموعة الاختبار ومجموعة الاختبار الخارجية.

* التجربة المقارنة 3: مقارنة أداء VirusImmu وNetBCE وEpiDope

كما قارن الباحثون أداء VirusImmu بأداء طريقتين للتنبؤ تم نشرهما مؤخرًا، وهما NetBCE وEpiDope. لا يمكن لـ NetBCE التنبؤ إلا بمناعة تسلسلات البروتين التي تقل عن 24 حمضًا أمينيًا.يمكن لـ VirusImmu أن يأخذ في الاعتبار كل من أجزاء تسلسل البروتين الطويلة والقصيرة. على الرغم من أن EpiDope يجمع بين الشبكة العصبية العميقة (DNN) لنموذج اللغة المضمنة (ELMo) والذاكرة طويلة المدى القصيرة (LSTM) DNN، محققًا AUC بقيمة 0.667، إلا أنه يعمل أيضًا بشكل أسوأ من VirusImmu (AUC=0.712).

مقارنة الأداء بين VirusImmu والنماذج الأخرى

* التجربة المقارنة رقم 4: مقارنة المتانة بين Virusimmu والنماذج الأخرى

لاختبار قوة جميع النماذج، أجرى الباحثون 50 جولة من أخذ العينات العشوائية، كل منها باستخدام ما يقرب من 30% من عينات المستضد وغير المستضد من مجموعة الاختبار الخارجية. يحقق VirusImmu أداءً أفضل من VaxiJen من حيث AUC وF1 Score.
ملاحظة: درجة F1 هي المتوسط التوافقي لدقة النموذج واسترجاعه.

وبما أن القدرة التنبؤية للنموذج قد تتأثر بطول تسلسل البروتين، فقد قام الباحثون بتجميع مجموعة الاختبار الخارجية في خمس مجموعات بخطوة تزايدية قدرها 200 زوج قاعدي في طول تسلسل البروتين، ثم أجروا 50 جولة من أخذ العينات العشوائية.

حقق كل من XGBoost وVirusimmu أداءً جيدًا (المركزان الأول والثاني) في بيانات التحقق الخارجية. تعتبر AUC الخاصة بـ XGBoost أفضل قليلاً من Virusimmu، ولكن درجة F1 الخاصة بها أسوأ. كما أن أداء XGBoost أسوأ من Virusimmu بالنسبة للبروتينات الأصغر من 200 bp و600-800 bp.

نظرًا لأن معظم النمط الظاهري عبارة عن شظايا بروتينية يقل طولها عن 200، فإن Virusimmu لديه سيناريوهات تطبيق أفضل من XGBoost.

إجمالي،لا يعتمد Viruslmmu على مقارنة التسلسل ويزيل تأثير طول تسلسل البروتين. وبالمقارنة مع أدوات التنبؤ المماثلة، فهي مناسبة للتنبؤ بالبروتينات والببتيدات بدقة أعلى وتنوع أكبر.

ولإثبات موثوقية VirusImmu بشكل أكبر، اختار الباحثون عينات SARS-CoV-2 من الأدبيات المنشورة للتحقق من قدرة VirusImmu على التنبؤ بالمناعة.

وتظهر النتائج أنومن بين 15 من النمط الظاهري المتضمنة في الأوراق البحثية الأربعة، تم التنبؤ بـ 14 منها كمستضدات بواسطة VirusImmu، مما أكد الأداء الجيد لـ VirusImmu في التنبؤ بمناعة البروتينات الفيروسية.

يساعد VirusImmu في تحديد مرشحي لقاح الببتيد لفيروس حمى الخنازير الأفريقية (ASFV)

نظرًا لعدم وجود لقاح أو علاج فعال لفيروس حمى الخنازير الأفريقية، فإن تحديد المستضدات الواقية أمر ضروري. توصلت الدراسة إلى أن البروتين المتعدد ASFV pp220، والذي يعد ضروريًا للسلامة البنيوية للفيروس، يحتوي على عناصر يمكنها تحفيز استجابات مناعية قوية لدى الخنازير، مما يشير إلى أنه يحتمل استخدامه في تطوير اللقاحات.

لتحديد النمط المستضدي، استخدم الباحثون 17 من أكثر الطرق شيوعًا، بما في ذلك BCPred، وخادم قاعدة بيانات النمط المناعي (IEDB)، وتوقعوا 1376 مرشحًا للنمط الخطي للخلايا البائية من بروتين pp220.

استخدم الباحثون معايير صارمة لتصفية النمط المستضدي، وبناءً على نتائج التنبؤ بـ VaxiJen ≤ 1.3، بقي 29 نمطًا مستضديًا، تم تصنيف 12 منها على أنها غير مسببة للحساسية وغير سامة. تنبأ VirusImmu بأن 8 من أصل 12 من النمط الظاهري كانت مستضدية.

قياس ارتباط مستضد الخلية البائية بالأجسام المضادة

من أجل تأكيد ارتباط 8 أنماط مع الأجسام المضادة IgG في مصل فيروس حمى الخنازير الأفريقية، جمع الباحثون عينات مصل مختلطة من 5 خنازير مصابة بفيروس حمى الخنازير الأفريقية و5 خنازير سليمة.

أكد اختبار ELISA غير المباشر وجود سبعة مستضدات خطية من الخلايا البائية، ولكن أحدها تفاعل بشكل خاص ويعتمد على الجرعة مع الأجسام المضادة في مصل الخنازير المصابة بفيروس حمى الخنازير الأفريقية ولكن ليس في الخنازير الصحية، في حين لم يكن للببتيد التحكمي التعسفي ('RRRRRRRRRRRRRR') أي تأثير. كما لم يظهر النمط الظاهري الذي تنبأت VirusImmu بأنه غير مستضدي ('VLEEQSKIDPNF') أي ارتباط محدد بالأجسام المضادة في المصل.

توفر هذه النتائج مثالاً قوياً لتطبيق VirusImmu في السيناريوهات الواقعية.

تكنولوجيا الذكاء الاصطناعي تُسرّع تطوير اللقاحات

مع التطور السريع للعلوم والتكنولوجيا، حققت الذكاء الاصطناعي اختراقات جديدة في مجال الطب الحيوي، بما في ذلك Alphaford 2 الذي طورته Deepmind، والذي تنبأ بنجاح ببنية البروتين، وفي وقت لاحق تقنيات جديدة مثل البروتين التوليدي. في عملية تطوير الأدوية، تلعب تقنية الذكاء الاصطناعي دوراً أكبر كأداة.

ألفافورد 2 للهندسة المعمارية

أولاً، يمكن استخدام الذكاء الاصطناعي لتحليل وتوقع الجينومات الفيروسية.من خلال التعلم العميق والتعرف على الأنماط لكميات كبيرة من بيانات الجينوم الفيروسي، يمكن للذكاء الاصطناعي التنبؤ بدقة باتجاهات الطفرة والتطور للفيروس، مما يساعد العلماء على تحديد الأهداف البروتينية الرئيسية للفيروس بسرعة وتطوير اللقاحات ذات الصلة بسرعة.

ثانياً، يلعب الذكاء الاصطناعي دوراً مهماً في مرحلة فحص الأدوية في عملية تطوير اللقاح.إن عملية فحص المخدرات التقليدية عادة ما تكون مستهلكة للوقت وتتطلب جهدا مكثفا وغير مؤكدة. ومع ذلك، من خلال تجارب المحاكاة واسعة النطاق واستخراج البيانات، يمكن للذكاء الاصطناعي تقييم التفاعل بين الأدوية والفيروسات بسرعة، واستبعاد الأدوية المرشحة ذات النشاط المحتمل، وتحسين كفاءة تطوير اللقاحات.

بالإضافة إلى ذلك، يمكن استخدام الذكاء الاصطناعي لتحسين تصميم التجارب السريرية للقاحات.من خلال محاكاة البيانات التجريبية واسعة النطاق، يمكن للذكاء الاصطناعي مساعدة العلماء على التنبؤ وتقييم استجابة وتأثيرات اللقاحات في جسم الإنسان، واكتشاف مشكلات السلامة المحتملة والآثار الجانبية مسبقًا، وتحسين تصميم التجارب.

في السوق، تميل شركات الأدوية المتعددة الجنسيات إلى إيلاء المزيد من الاهتمام لتكنولوجيا الذكاء الاصطناعي. وبحسب إحصاءات شركة استشارات الذكاء الاصطناعي Deep Pharma Intelligence، بلغ إجمالي الاستثمار في 800 شركة أدوية تعتمد على الذكاء الاصطناعي في جميع أنحاء العالم 5.93 مليار دولار أمريكي اعتبارًا من ديسمبر 2022، وهو ما يمثل زيادة قدرها 27 ضعفًا في 9 سنوات.

إذن، ما هي التحديات الأخرى التي تواجهها تقنية الذكاء الاصطناعي في تطوير اللقاحات والأدوية الأخرى؟ وبحسب لي وين وين، الأستاذ المساعد في قسم إدارة المعلومات وذكاء الأعمال في كلية الإدارة بجامعة فودان، فإن تشكيل خوارزميات الذكاء الاصطناعي يتطلب كميات هائلة من البيانات للتعلم، وفي مجال البحث والتطوير في مجال الأدوية، تتضمن هذه البيانات الهياكل ذات الصلة للبروتينات، وسلاسل مختلفة من تسلسلات الأحماض الأمينية، وما إلى ذلك.

في الوقت الحاضر، تكمن صعوبة تطبيق تكنولوجيا الذكاء الاصطناعي في البحث والتطوير الدوائي في اكتساب البيانات وتجميعها. إن بيانات المختبرات مكلفة، في حين أن شركات الأدوية لا تشارك ما يكفي من البيانات، والبيانات الأساسية المصنفة نادرة. هذه كلها قيود.