Les Jardins De Kew, Au Royaume-Uni, Utilisent L'apprentissage Automatique Pour Prédire La Résistance Des Plantes Au Paludisme, Augmentant La Précision De 0,46 À 0,67

Le paludisme est une maladie parasitaire qui sévit dans le monde entier. Elle est transmise par les moustiques et ses taux de morbidité et de mortalité restent élevés parmi les maladies à transmission vectorielle. Selon le dernier rapport mondial sur le paludisme, l’épidémie mondiale de paludisme s’est encore intensifiée en 2021.On a recensé 247 millions de nouveaux cas et 619 000 décès au cours de l’année.
À l’heure actuelle, le traitement médicamenteux reste le principal moyen de prévention et de traitement du paludisme dans le monde, et les molécules naturelles actives antipaludiques de nombreux médicaments sont dérivées de plantes.C’est pourquoi les chercheurs s’efforcent de trouver de nouveaux composés antipaludiques dérivés de plantes.Cependant, pour atteindre cet objectif, un grand nombre de plantes doivent être examinées et testées, un processus long et coûteux.
Récemment, des chercheurs des Jardins botaniques royaux de Kew et de l’Université de St Andrews ont démontré que les algorithmes d’apprentissage automatique peuvent prédire efficacement les propriétés antipaludiques des plantes avec une précision de 0,67, une amélioration significative par rapport aux 0,46 des méthodes expérimentales traditionnelles.Actuellement, les résultats de la recherche ont été publiés dans la revue Frontiers in Plant Science, intitulée « L'apprentissage automatique améliore la prédiction des plantes comme sources potentielles d'antipaludéens ».

Les résultats de la recherche ont été publiés dans Frontiers in Plant Science.
Correction du biais d'échantillonnage et de l'ensemble de données
L’un des objectifs importants de cette expérience est d’évaluer si les données sur les caractéristiques des plantes peuvent être utilisées pour former des modèles d’apprentissage automatique afin de prédire l’activité antipaludique des plantes.d'abord,Les chercheurs ont fourni un ensemble de données de 21 100 espèces de plantes issues de trois familles de plantes florales de l’ordre des Gentianales : Apocynaceae, Loganaceae et Rubiaceae.On a découvert que ces plantes contiennent de nombreux alcaloïdes, tels que la quinine, un alcaloïde antipaludique, et son isomère, la quinidine.

Figure 1 : Exemples d'alcaloïdes antipaludiques trouvés dans le laurier-rose, Strychnos nux vomica et les Rubiacées
R : L'aspidocarpine est un alcaloïde présent dans les plantes de la famille des Apocynaceae.
B : Strychnogucine, un alcaloïde présent dans les plantes de la famille des Strychnaceae.
C : Quinine, un alcaloïde présent dans les plantes Rubiaceae et désormais largement utilisé dans les médicaments antipaludiques.
L'ensemble de données comprend spécifiquement des informations sur les caractéristiques morphologiques des plantes, les caractéristiques biochimiques, les conditions de l'environnement de croissance et la situation géographique.La figure suivante montre la relation entre les caractéristiques binaires (caractéristiques avec seulement deux valeurs possibles, telles que toxique/non toxique) dans cet ensemble de données.

Figure 2 : Relations entre les entités binaires dans l'ensemble de données
Axe des X : caractéristiques binaires.
Axe Y : la valeur moyenne de chaque caractéristique, où chaque caractéristique représente un attribut différent de la plante, par exemple si elle est toxique, si elle est utilisée comme médecine traditionnelle, etc.
Comme le montre la figure, 101 TP3T de toutes les espèces végétales sont utilisées comme médicaments traditionnels, tandis que 771 TP3T d'espèces végétales vénéneuses sont utilisées comme médicaments traditionnels.Les chercheurs appellent ce biais d’échantillonnage différentiel et suggèrent qu’il est causé par l’approche ethnobotanique.
L'ethnobotanique est la recherche de plantes médicinales en trouvant et en étudiant les plantes que les populations locales utilisent pour traiter les maladies.Cependant, en raison des différences entre les régions et les cultures,Il est possible qu’une ou plusieurs plantes antipaludiques apparaissent fréquemment dans l’ensemble de données, tandis que d’autres plantes pouvant avoir des propriétés antipaludiques sont ignorées. C’est ce qu’on appelle le biais d’échantillonnage.
Afin de mieux entraîner le modèle, les chercheurs ont corrigé le biais d’échantillonnage.La méthode spécifique consiste à repondérer chaque espèce végétale, c'est-à-direLa pondération de probabilité inverse est utilisée ,De cette manière, chaque échantillon d’espèce peut être traité de manière égale dans la formation du modèle, améliorant ainsi la représentativité de l’ensemble de données et les performances du modèle.
Affichage des résultats expérimentaux
Formation et validation du modèle
Dans cette expérience,Les chercheurs formésMachine à vecteurs de support (SVC), régression logistique (Logit), XGBoot (XGB) et réseau neuronal bayésien (BNN) 4 modèles d'apprentissage automatique,Ces modèles ont été combinés avec 2 méthodes ethnobotaniques :À la recherche de plantes antipaludiques traditionnelles et d'usages médicinaux traditionnels(non spécifique au paludisme) plantes à titre de comparaison.
Pour les trois modèles basés sur Logit, SVC et XGB,La méthode de formation des chercheurs consiste à ajuster les hyperparamètres du modèle via l'algorithme GridSearchCV et à utiliser l'indicateur F0.5 pour évaluer les performances du modèle.Parmi eux, les chercheurs ont ajusté le paramètre de régularisation C et le paramètre class_weight pour les deux modèles basés sur Logit et SVC ; pour le modèle basé sur XGB, ils ont ajusté le paramètre max_depth.
Pour le modèle basé sur BNN, les chercheurs ont utilisé deux couches de réseaux neuronaux avec respectivement 10 et 5 couches et la fonction d'activation de Tahn.Le modèle a été formé avec 100 000 itérations de chaîne de Markov de Monte Carlo.
Pendant la phase de vérification,Les chercheurs ont utilisé une validation croisée stratifiée en 10 étapes avec 10 itérations dans deux cas (sans correction du biais d’échantillonnage et avec correction du biais d’échantillonnage). Les performances du modèle ont été évaluées à l’aide de 10 itérations de la méthode de validation croisée stratifiée en 10 étapes.
Résultats expérimentaux
Premièrement, sans correction du biais d’échantillonnage,Les résultats expérimentaux des chercheurs sur le criblage de composés antipaludiques dérivés de plantes sont les suivants :

Figure 3 : Sans correction de biais
Comparaison de modèles d'apprentissage automatique avec deux méthodes ethnobotaniques
Comme le montre la figure, dans l’ensemble,Le score moyen du modèle d’apprentissage automatique était supérieur à celui des deux méthodes ethnobotaniques.,Et il peut prédire l'activité antipaludique à partir des caractéristiques des données (BNN : 0,66, XGB : 0,66, Logit : 0,62, SVC : 0,65, Ethno (M) : 0,57, Ethno (G) : 0,50).
Lorsqu'une correction de biais est effectuée,Les résultats expérimentaux des chercheurs sur le criblage de composés antipaludiques dérivés de plantes sont les suivants :

Figure 4 : Lorsque la correction du biais est effectuée
Comparaison de modèles d'apprentissage automatique avec deux méthodes ethnobotaniques
Comme le montre la figure, bien que la variance des performances du modèle soit plus élevée en raison des pondérations ajoutées pour les ensembles d’entraînement et de test,maisLe modèle d’apprentissage automatique s’est néanmoins révélé plus performant que l’approche ethnobotanique.Les chercheurs ont estimé la précision de la méthode traditionnelle de sélection des plantes à 0,47, tandis que la précision de prédiction du modèle de machine était généralement supérieure à ce nombre (BNN : 0,59, XGB : 0,63, Logit : 0,66, SVC : 0,67).
Cependant, bien que ce résultat expérimental montre que les modèles d’apprentissage automatique peuvent filtrer avec une précision relative les plantes ayant une activité antipaludique, les chercheurs ont déclaré :Il reste encore quelques points à améliorer dans cette expérience :
* Augmenter les données d'entraînement:Actuellement, l’ensemble de données de formation est relativement petit et davantage de données sur les espèces végétales doivent être ajoutées pour améliorer encore les performances du modèle.
* Résoudre le problème du biais d'échantillonnage:Bien que cette expérience ait tenté de résoudre le problème du biais d’échantillonnage, d’autres méthodes de correction du biais doivent encore être explorées.
* Optimiser la sélection des fonctionnalités:Une sélection et une optimisation plus poussées des caractéristiques des plantes sont nécessaires.
* Autres tests sur les espèces végétales avec trop peu d'espèces ou une distribution inégale des échantillons :Pour les espèces sous-représentées dans les données existantes, des tests supplémentaires sont nécessaires pour obtenir des résultats plus précis.
Kew Gardens, Kew : découvrez le pouvoir des plantes
À propos de ce résultat de recherche, le directeur des Jardins botaniques royaux de Kew a déclaré :« Nos résultats montrentLes plantes ont un grand potentiel pour produire de nouveaux médicaments.On estime à 34 300 le nombre d’espèces de plantes vasculaires connues, mais beaucoup d’entre elles n’ont pas fait l’objet d’études scientifiques approfondies.Nous espérons que les méthodes d’apprentissage automatique pourront être appliquées à cet égard pour trouver de nouveaux composés médicinaux.Ces résultats soulignent également l’importance de protéger la biodiversité et de développer les ressources naturelles de manière durable. "
Les jardins botaniques royaux de Kew, mondialement connus, sont souvent appelés « jardins de Kew ». Kew Gardens est un établissement de recherche et d'enseignement sur les plantes de renommée internationale, financé par le ministère de l'Environnement, de l'Alimentation et des Affaires rurales (Royaume-Uni) du gouvernement britannique. C'est une organisation publique non gouvernementale. Les objectifs de Kew sont les suivants :« Protéger la biodiversité et développer des solutions fondées sur la nature pour relever les défis mondiaux auxquels l’humanité est confrontée. »
Il y a quelques mois environ,Selon certaines informations, Greensphere Capital, un fonds dédié au développement durable, envisage d'investir 100 millions de livres sterling dans les jardins de Kew.L’investissement servira à l’agriculture durable et au recrutement de nouveaux chercheurs pour travailler sur des projets tels que la science des plantes et des champignons, la conservation des habitats, l’agriculture et la foresterie.