HyperAI

Kew Gardens in Großbritannien Nutzt Maschinelles Lernen, Um Die Resistenz Von Pflanzen Gegen Malaria Vorherzusagen Und Erhöht so Die Genauigkeit Von 0,46 Auf 0,67

vor 2 Jahren
Information
zhaorui
特色图像

Malaria ist eine parasitäre Erkrankung, die weltweit wütet. Die Krankheit wird durch Mücken übertragen und die Morbiditäts- und Mortalitätsraten sind unter den durch Vektoren übertragenen Krankheiten nach wie vor hoch. Laut dem jüngsten Welt-Malaria-Bericht hat sich die globale Malaria-Epidemie im Jahr 2021 weiter verschärft.Im Laufe des Jahres gab es 247 Millionen Neuinfektionen und schätzungsweise 619.000 Todesfälle.

Auch heute noch ist die medikamentöse Behandlung das wichtigste Mittel zur Vorbeugung und Behandlung von Malaria weltweit, und die natürlichen Wirkstoffe vieler Medikamente gegen Malaria werden aus Pflanzen gewonnen.Aus diesem Grund arbeiten Forscher daran, neue pflanzliche Wirkstoffe gegen Malaria zu finden.Um dieses Ziel zu erreichen, müssen jedoch zahlreiche Pflanzen untersucht und getestet werden, ein zeitaufwändiger und teurer Prozess.

Kürzlich haben Forscher der Royal Botanic Gardens in Kew und der University of St Andrews gezeigt, dass Algorithmen des maschinellen Lernens die antimalariafördernden Eigenschaften von Pflanzen mit einer Genauigkeit von 0,67 vorhersagen können. Dies stellt eine erhebliche Verbesserung gegenüber den 0,46 bei herkömmlichen experimentellen Methoden dar.Die Forschungsergebnisse wurden kürzlich in der Fachzeitschrift Frontiers in Plant Science unter dem Titel „Maschinelles Lernen verbessert die Vorhersage von Pflanzen als potenzielle Quellen von Malariamitteln“ veröffentlicht.

Die Forschungsergebnisse wurden in Frontiers in Plant Science veröffentlicht.

Korrektur von Datensatz- und Stichprobenverzerrungen

Eines der wichtigsten Ziele dieses Experiments besteht darin, zu beurteilen, ob Daten zu Pflanzenmerkmalen zum Trainieren von maschinellen Lernmodellen verwendet werden können, um die Antimalariaaktivität von Pflanzen vorherzusagen.Erste,Die Forscher stellten einen Datensatz mit 21.100 Pflanzenarten aus drei Blütenpflanzenfamilien der Ordnung Gentianales zur Verfügung: Apocynaceae, Loganaceae und Rubiaceae.Es wurde festgestellt, dass diese Pflanzen viele Alkaloide enthalten, wie beispielsweise Chinin, ein Antimalaria-Alkaloid, und sein Isomer Chinidin.

Abbildung 1: Beispiele für antimalariawirksame Alkaloide in Oleander, Strychnos nux vomica und Rubiaceae

A: Aspidocarpin ist ein Alkaloid, das in Pflanzen der Familie der Hundszahngewächse vorkommt.

B: Strychnogucin, ein Alkaloid, das in Pflanzen der Familie der Strychnaceae vorkommt.

C: Chinin, ein Alkaloid, das in Rubiaceae-Pflanzen vorkommt und heute häufig in Malariamedikamenten verwendet wird.

Der Datensatz enthält insbesondere Informationen zu morphologischen und biochemischen Merkmalen der Pflanze, zu den Wachstumsbedingungen und zum geografischen Standort.Die folgende Abbildung zeigt die Beziehung zwischen binären Merkmalen (Merkmale mit nur zwei möglichen Werten, z. B. giftig/ungiftig) in diesem Datensatz.

Abbildung 2: Beziehungen zwischen binären Merkmalen im Datensatz

X-Achse: binäre Merkmale.

Y-Achse: der Durchschnittswert jedes Merkmals, wobei jedes Merkmal eine andere Pflanzeneigenschaft darstellt, z. B. ob sie giftig ist, ob sie als traditionelles Arzneimittel verwendet wird usw.

Wie aus der Abbildung hervorgeht, werden 101 TP3T aller Pflanzenarten als traditionelle Arzneimittel verwendet, während 771 TP3T giftiger Pflanzenarten als traditionelle Arzneimittel verwendet werden.Die Forscher bezeichnen diesen Unterschied als Stichprobenverzerrung und gehen davon aus, dass er durch den ethnobotanischen Ansatz verursacht wird. 

Ethnobotanik ist die Suche nach Heilpflanzen durch das Aufspüren und Studium von Pflanzen, die von der einheimischen Bevölkerung zur Behandlung von Krankheiten verwendet werden.Aufgrund der Unterschiede zwischen Regionen und KulturenEs ist möglich, dass eine oder mehrere Pflanzen mit antimalarialer Wirkung häufig im Datensatz vorkommen, während andere Pflanzen mit möglicherweise antimalarialer Wirkung ignoriert werden. Dies wird als Stichprobenverzerrung bezeichnet.

Um das Modell besser zu trainieren, korrigierten die Forscher den Stichprobenfehler.Die spezifische Methode besteht darin, jede Pflanzenart neu zu gewichten, d.h.Es wird die inverse Wahrscheinlichkeitsgewichtung verwendet ,Auf diese Weise kann jede Artenprobe beim Modelltraining gleich behandelt werden, wodurch die Repräsentativität des Datensatzes und die Leistung des Modells verbessert werden.

Anzeige der Versuchsergebnisse

 Modelltraining und -validierung 

In diesem ExperimentDie Forscher trainiertenSupport Vector Machine (SVC), Logistische Regression (Logit), XGBoot (XGB) und Bayesianisches Neuronales Netzwerk (BNN) 4 Modelle für maschinelles Lernen,Diese Modelle wurden mit zwei ethnobotanischen Methoden kombiniert:Suche nach traditionellen Pflanzen gegen Malaria und traditionellen medizinischen Anwendungen(nicht spezifisch für Malaria) Pflanzen zum Vergleich.

Für die drei Modelle basierend auf Logit, SVC und XGB,Die Trainingsmethode der Forscher besteht darin, die Hyperparameter des Modells über den GridSearchCV-Algorithmus anzupassen und den F0.5-Indikator zur Bewertung der Modellleistung zu verwenden.Unter anderem passten die Forscher den Regularisierungsparameter C und den class_weight-Parameter für die beiden auf Logit und SVC basierenden Modelle an. für das auf XGB basierende Modell haben sie den Parameter max_depth angepasst.

Für das BNN-basierte Modell verwendeten die Forscher zwei Schichten neuronaler Netzwerke mit 10 bzw. 5 Schichten und die Tahn-Aktivierungsfunktion.Das Modell wurde mit 100.000 Markov-Ketten-Monte-Carlo-Iterationen trainiert.

Während der VerifizierungsphaseDie Forscher verwendeten in zwei Fällen eine 10-fach geschichtete Kreuzvalidierung mit 10 Iterationen (ohne Stichprobenverzerrungskorrektur und mit Stichprobenverzerrungskorrektur). Die Modellleistung wurde mithilfe der 10 Iterationen der 10-fach geschichteten Kreuzvalidierungsmethode bewertet.

Experimentelle Ergebnisse 

Erstens, ohne Korrektur des Stichprobenbias,Die experimentellen Ergebnisse der Forscher beim Screening pflanzlicher Antimalaria-Wirkstoffe lauten wie folgt:

Abbildung 3: Ohne Bias-Korrektur

Vergleich von Machine-Learning-Modellen mit zwei ethnobotanischen Methoden

Wie in der Abbildung gezeigt, insgesamtDie durchschnittliche Punktzahl des maschinellen Lernmodells war höher als die der beiden ethnobotanischen Methoden.,Und es kann die Antimalariaaktivität anhand von Datenmerkmalen vorhersagen (BNN: 0,66, XGB: 0,66, Logit: 0,62, SVC: 0,65, Ethno (M): 0,57, Ethno (G): 0,50).

Wenn eine Bias-Korrektur durchgeführt wird,Die experimentellen Ergebnisse der Forscher beim Screening pflanzlicher Antimalaria-Wirkstoffe lauten wie folgt:

Abbildung 4: Wenn eine Bias-Korrektur durchgeführt wird

Vergleich von Machine-Learning-Modellen mit zwei ethnobotanischen Methoden

Wie in der Abbildung gezeigt, ist die Varianz der Modellleistung aufgrund der zusätzlichen Gewichte für die Trainings- und Testsätze zwar höher,AberDas maschinelle Lernmodell schnitt immer noch besser ab als der ethnobotanische Ansatz.Die Forscher schätzten die Genauigkeit der traditionellen Pflanzenauswahlmethode auf 0,47, während die Vorhersagegenauigkeit des Maschinenmodells im Allgemeinen über dieser Zahl lag (BNN: 0,59, XGB: 0,63, Logit: 0,66, SVC: 0,67).

Obwohl dieses experimentelle Ergebnis zeigt, dass Modelle des maschinellen Lernens Pflanzen mit Antimalaria-Wirkung relativ genau erkennen können, sagten die Forscher:Es gibt noch einige Bereiche, die in diesem Experiment verbessert werden müssen:

* Erhöhen Sie die Trainingsdaten:Derzeit ist der Trainingsdatensatz relativ klein und es müssen weitere Daten zu Pflanzenarten hinzugefügt werden, um die Leistung des Modells weiter zu verbessern.

* Lösen Sie das Problem der Stichprobenverzerrung:Obwohl in diesem Experiment versucht wurde, das Problem der Stichprobenverzerrung zu lösen, müssen noch weitere Methoden zur Korrektur der Verzerrung erforscht werden.

* Optimieren Sie die Funktionsauswahl:Es bedarf einer stärkeren Auswahl und Optimierung der Pflanzenmerkmale.

* Weitere Prüfung von Pflanzenarten mit zu geringer Artenzahl oder ungleichmäßiger Probenverteilung:Für Arten, die in den vorhandenen Daten unterrepräsentiert sind, sind weitere Tests erforderlich, um genauere Ergebnisse zu erhalten.

Kew Gardens, Kew: Entdecken Sie die Kraft der Pflanzen

Zu diesem Forschungsergebnis sagte der Direktor des Royal Botanic Gardens, Kew:„Unsere Ergebnisse zeigenPflanzen verfügen über ein großes Potenzial für die Herstellung neuer Medikamente.Schätzungsweise 34.300 Gefäßpflanzenarten sind bekannt, viele davon wurden jedoch noch nicht umfassend wissenschaftlich untersucht.Wir hoffen, dass Methoden des maschinellen Lernens in diesem Zusammenhang eingesetzt werden können, um neue medizinische Wirkstoffe zu finden.Und diese Ergebnisse unterstreichen auch, wie wichtig es ist, die biologische Vielfalt zu schützen und natürliche Ressourcen nachhaltig zu entwickeln. "

Der weltberühmte Royal Botanic Gardens in Kew wird oft als „Kew Gardens“ bezeichnet. Kew Gardens ist eine international renommierte Pflanzenforschungs- und Bildungseinrichtung, die vom Ministerium für Umwelt, Ernährung und ländliche Angelegenheiten (UK) der britischen Regierung finanziert wird. Es handelt sich um eine nichtstaatliche öffentliche Organisation. Die Ziele von Kew sind:„Schützen Sie die biologische Vielfalt und entwickeln Sie naturbasierte Lösungen, um die globalen Herausforderungen der Menschheit zu bewältigen.“

Vor etwa ein paar MonatenEs gibt Nachrichtenberichte, denen zufolge Greensphere Capital, ein auf nachhaltige Entwicklung spezialisierter Fonds, plant, 100 Millionen Pfund in Kew Gardens zu investieren.Die Investitionen fließen in eine nachhaltige Landwirtschaft und in die Anwerbung neuer Forscher für Projekte in den Bereichen Pflanzen- und Pilzkunde, Lebensraumschutz sowie Land- und Forstwirtschaft.