تستخدم حدائق كيو، بالمملكة المتحدة، التعلم الآلي للتنبؤ بمقاومة النباتات للملاريا، مما أدى إلى زيادة الدقة من 0.46 إلى 0.67

الملاريا مرض طفيلي ينتشر في جميع أنحاء العالم. وينتقل هذا المرض عن طريق البعوض، وتظل معدلات الإصابة به والوفيات به مرتفعة بين الأمراض المنقولة عن طريق النواقل. وبحسب أحدث تقرير عالمي عن الملاريا، اشتد وباء الملاريا العالمي في عام 2021.كان هناك 247 مليون حالة جديدة و619 ألف حالة وفاة متوقعة على مدار العام.
في الوقت الحاضر، لا يزال العلاج الدوائي هو الوسيلة الرئيسية للوقاية من الملاريا وعلاجها في العالم، ويتم استخلاص الجزيئات الطبيعية النشطة المضادة للملاريا في العديد من الأدوية من النباتات.ولذلك، يعمل الباحثون على إيجاد مركبات جديدة مضادة للملاريا مشتقة من النباتات.ومع ذلك، لتحقيق هذا الهدف، هناك حاجة إلى فحص واختبار أعداد كبيرة من النباتات، وهي عملية تستغرق وقتا طويلا ومكلفة.
في الآونة الأخيرة، أثبت باحثون من الحدائق النباتية الملكية في كيو وجامعة سانت أندروز أن خوارزميات التعلم الآلي يمكنها التنبؤ بشكل فعال بخصائص النباتات المضادة للملاريا بدقة تبلغ 0.67، وهو تحسن كبير مقارنة بـ 0.46 في الطرق التجريبية التقليدية.وقد تم نشر نتائج البحث حاليًا في مجلة Frontiers in Plant Science، تحت عنوان "التعلم الآلي يعزز التنبؤ بالنباتات كمصدر محتمل للأدوية المضادة للملاريا".

وقد نشرت نتائج البحث في مجلة Frontiers in Plant Science.
تصحيح تحيز مجموعة البيانات والعينة
أحد الأهداف المهمة لهذه التجربة هو تقييم ما إذا كان من الممكن استخدام بيانات ميزات النبات لتدريب نماذج التعلم الآلي للتنبؤ بنشاط النبات المضاد للملاريا.أولاً،قام الباحثون بتوفير مجموعة بيانات مكونة من 21100 نوع من النباتات من ثلاث عائلات نباتية زهرية في رتبة Gentianales: Apocynaceae، وLoganaceae، وRubiaceae.وقد وجد أن هذه النباتات تحتوي على العديد من القلويدات، مثل الكينين، وهو قلويد مضاد للملاريا، ومتماثله الكينيدين.

الشكل 1: أمثلة على قلويدات مضادة للملاريا موجودة في نبات الدفلى، ونبات ستريكنوس نوكس فوميكا، ونبات الفويقية
ج: الأسبيدوكاربين هو قلويد موجود في نباتات الفصيلة الدفلية.
ب: ستريكنوغوسين، وهو قلويد موجود في نباتات من عائلة ستريكناسيا.
ج: الكينين، وهو قلويد موجود في نباتات الفوية ويُستخدم الآن على نطاق واسع في الأدوية المضادة للملاريا.
تتضمن مجموعة البيانات على وجه التحديد معلومات حول الخصائص المورفولوجية للنبات، والخصائص الكيميائية الحيوية، وظروف بيئة النمو، والموقع الجغرافي.يوضح الشكل التالي العلاقة بين الميزات الثنائية (الميزات التي تحتوي على قيمتين محتملتين فقط، مثل السامة/غير السامة) في مجموعة البيانات هذه.

الشكل 2: العلاقات بين الميزات الثنائية في مجموعة البيانات
المحور X: الميزات الثنائية.
المحور Y: القيمة المتوسطة لكل ميزة، حيث تمثل كل ميزة سمة نباتية مختلفة، مثل ما إذا كانت سامة، أو ما إذا كانت تستخدم كدواء تقليدي، وما إلى ذلك.
كما هو موضح في الشكل، يتم استخدام 101 TP3T من جميع أنواع النباتات كأدوية تقليدية، في حين يتم استخدام 771 TP3T من أنواع النباتات السامة كأدوية تقليدية.ويطلق الباحثون على هذا التحيز في أخذ العينات المختلفة، ويقترحون أنه ناجم عن النهج الإثنونباتي.
علم النبات العرقي هو البحث عن النباتات الطبية من خلال العثور على النباتات التي يستخدمها السكان المحليون لعلاج الأمراض ودراستها.ومع ذلك، بسبب الاختلافات بين المناطق والثقافات،من الممكن أن يظهر نبات واحد أو أكثر مضاد للملاريا بشكل متكرر في مجموعة البيانات، في حين يتم تجاهل النباتات الأخرى التي قد تحتوي على خصائص مضادة للملاريا. هذا ما يسمى بالتحيز في العينة.
ومن أجل تدريب النموذج بشكل أفضل، قام الباحثون بتصحيح تحيز العينة.الطريقة المحددة هي إعادة وزن كل نوع من أنواع النباتات، أي،يتم استخدام ترجيح الاحتمال العكسي ،وبهذه الطريقة، يمكن التعامل مع كل عينة من الأنواع على قدم المساواة في تدريب النموذج، وبالتالي تحسين تمثيلية مجموعة البيانات وأداء النموذج.
عرض النتائج التجريبية
تدريب النموذج والتحقق من صحته
في هذه التجربة،قام الباحثون بتدريبآلة الدعم المتجهي (SVC)، والانحدار اللوجستي (Logit)، وXGBoot (XGB)، والشبكة العصبية البايزية (BNN) 4 نماذج التعلم الآلي،تم دمج هذه النماذج مع طريقتين إثنونباتيتين:البحث عن النباتات التقليدية المضادة للملاريا والاستخدامات الطبية التقليدية(غير خاصة بمرض الملاريا) نباتات للمقارنة.
بالنسبة للنماذج الثلاثة المبنية على Logit وSVC وXGB،طريقة تدريب الباحثين هي ضبط معلمات النموذج الفائقة من خلال خوارزمية GridSearchCV واستخدام مؤشر F0.5 لتقييم أداء النموذج.ومن بينها، قام الباحثون بتعديل معامل التنظيم C ومعامل class_weight للنموذجين بناءً على Logit وSVC؛ بالنسبة للنموذج المبني على XGB، قاموا بتعديل معلمة max_depth.
بالنسبة للنموذج المبني على BNN، استخدم الباحثون طبقتين من الشبكات العصبية تحتوي كل منهما على 10 و5 طبقات على التوالي ودالة تنشيط Tahn.تم تدريب النموذج باستخدام 100000 تكرار لسلسلة ماركوف مونت كارلو.
خلال مرحلة التحقق،استخدم الباحثون التحقق المتبادل الطبقي 10 مرات مع 10 تكرارات في حالتين (بدون تصحيح تحيز العينة ومع تصحيح تحيز العينة). تم تقييم أداء النموذج باستخدام 10 تكرارات من طريقة التحقق المتبادل الطبقي المكون من 10 أضعاف.
النتائج التجريبية
أولاً، بدون تصحيح تحيز العينة،وكانت نتائج تجارب الباحثين على فحص المركبات المضادة للملاريا المشتقة من النباتات على النحو التالي:

الشكل 3: بدون تصحيح التحيز
مقارنة نماذج التعلم الآلي مع طريقتين إثنونباتيتين
كما هو موضح في الشكل، بشكل عام،وكان متوسط درجة نموذج التعلم الآلي أعلى من متوسط درجة طريقتي علم النبات العرقي.،ويمكنه التنبؤ بالنشاط المضاد للملاريا من ميزات البيانات (BNN: 0.66، XGB: 0.66، Logit: 0.62، SVC: 0.65، Ethno (M): 0.57، Ethno (G): 0.50).
عندما يتم إجراء تصحيح التحيز،وكانت نتائج تجارب الباحثين على فحص المركبات المضادة للملاريا المشتقة من النباتات على النحو التالي:

الشكل 4: عند إجراء تصحيح التحيز
مقارنة نماذج التعلم الآلي مع طريقتين إثنونباتيتين
كما هو موضح في الشكل، على الرغم من أن تباين أداء النموذج أعلى بسبب الأوزان المضافة لمجموعات التدريب والاختبار،لكنلا يزال نموذج التعلم الآلي يحقق أداءً أفضل من النهج الإثنونباتي.وقدر الباحثون دقة طريقة اختيار النباتات التقليدية بـ 0.47، في حين كانت دقة التنبؤ لنموذج الآلة أعلى عمومًا من هذا الرقم (BNN: 0.59، XGB: 0.63، Logit: 0.66، SVC: 0.67).
ومع ذلك، على الرغم من أن هذه النتيجة التجريبية تظهر أن نماذج التعلم الآلي قادرة على فحص النباتات ذات النشاط المضاد للملاريا بدقة نسبية، قال الباحثون،لا تزال هناك بعض المجالات التي تحتاج إلى تحسين في هذه التجربة:
* زيادة بيانات التدريب:في الوقت الحالي، تعتبر مجموعة بيانات التدريب صغيرة نسبيًا، ويجب إضافة المزيد من بيانات أنواع النباتات لتحسين أداء النموذج بشكل أكبر.
* حل مشكلة تحيز العينة:وعلى الرغم من أن هذه التجربة حاولت معالجة مشكلة تحيز العينة، إلا أنه لا يزال يتعين استكشاف المزيد من أساليب تصحيح التحيز.
* تحسين اختيار الميزة:هناك حاجة إلى مزيد من اختيار السمات النباتية وتحسينها.
* إجراء المزيد من الاختبارات على أنواع النباتات التي تحتوي على عدد قليل جدًا من الأنواع أو توزيع غير متساوٍ للعينات:بالنسبة للأنواع التي لا يتم تمثيلها بشكل كافٍ في البيانات الحالية، هناك حاجة إلى المزيد من الاختبارات للحصول على نتائج أكثر دقة.
حدائق كيو، كيو: اكتشف قوة النباتات
وفيما يتعلق بنتيجة هذا البحث، قال مدير الحدائق النباتية الملكية في كيو:"تظهر نتائجناتتمتع النباتات بإمكانيات كبيرة لإنتاج أدوية جديدة.يُقدر عدد أنواع النباتات الوعائية المعروفة بنحو 34,300 نوع، ولكن الكثير منها لم تتم دراسته علميًا على نطاق واسع.ونأمل أن نتمكن من تطبيق أساليب التعلم الآلي في هذا الصدد للعثور على مركبات طبية جديدة.وتسلط هذه النتائج الضوء أيضًا على أهمية حماية التنوع البيولوجي وتنمية الموارد الطبيعية بشكل مستدام. "
تُعرف حدائق كيو النباتية الملكية الشهيرة عالميًا باسم "حدائق كيو". حدائق كيو هي مؤسسة بحثية وتعليمية للنباتات مشهورة دوليًا، تم تمويلها من قبل وزارة البيئة والغذاء والشؤون الريفية (المملكة المتحدة) التابعة لحكومة المملكة المتحدة. هي منظمة عامة غير حكومية. أهداف كيو هي:"حماية التنوع البيولوجي وتطوير حلول قائمة على الطبيعة لمعالجة التحديات العالمية التي تواجه البشرية."
منذ بضعة أشهر تقريبًا،وتشير تقارير إخبارية إلى أن شركة Greensphere Capital، وهي صندوق مخصص للتنمية المستدامة، تخطط لاستثمار 100 مليون جنيه إسترليني في حدائق كيو.وسوف يذهب الاستثمار نحو الزراعة المستدامة وتجنيد باحثين جدد للعمل في مشاريع مثل علم النبات والفطريات، والحفاظ على الموائل، والزراعة والغابات.