王立植物園は機械学習を使用して植物のマラリア耐性を予測し、精度を 0.46 から 0.67 に高めました。

特色图像

マラリアは世界中で猛威を振るっている寄生虫病であり、蚊を介して伝染し、昆虫媒介性疾患の中でも罹患率と死亡率は依然として高いままです。最新の世界マラリア報告書によると、世界的なマラリアの流行は 2021 年にさらに激化すると予想されています。年間を通じて新たな感染者は2億4,700万人に達し、推定61万9,000人が死亡した。

現在でも薬物治療が世界中でマラリアの予防と治療の主要な手段であり、多くの薬物の抗マラリア活性天然分子は植物に由来しています。したがって、研究者たちは植物由来の新しい抗マラリア化合物を見つけるために熱心に取り組んできました。しかし、この目標を達成するには、多数の植物をスクリーニングしてテストする必要があり、このプロセスには時間と費用がかかります。

最近、キュー王立植物園とセント・アンドリュース大学の研究者らは、機械学習アルゴリズムが植物のマラリア耐性を効果的に予測できることを実証しました。その精度は 0.67 で、従来の実験手法の 0.46 よりも大幅に優れています。改善されました。現在、研究結果は「機械学習により、抗マラリア薬の潜在的供給源としての植物の予測が強化される」というタイトルで「Frontiers in Plant Science」誌に掲載されている。

研究成果はFrontiers in Plant Scienceに掲載されました

データセットとサンプリングのバイアス補正

この実験の重要な目的の 1 つは、植物の特性データを使用して機械学習モデルをトレーニングし、植物の抗マラリア活性を予測できるかどうかを評価することです。初め、研究者らは、リンドウ目の3つの花植物科(キョウチクトウ科、フクロソウ科、アカネ科)の21,100種の植物に基づくデータセットを提供した。これらの植物には、抗マラリアアルカロイドのキニーネやその異性体キニジンなど、多くのアルカロイドが含まれていることがわかっています。

図 1: キョウチクトウ、Nux Vomica、アカネ科の抗マラリアアルカロイドの例。

A: キョウチクトウ科の植物に含まれるアルカロイド: アスピドカルピン。

B:ストリキノグシン科の植物に含まれるアルカロイド:ストリキノグシン。

C: キニーネはアカネ科の植物に含まれるアルカロイドで、現在抗マラリア薬に広く使用されています。

データセットには、具体的には植物の形態学的特徴、生化学的特徴、生育環境条件、地理的位置などの情報が含まれます。以下の図は、このデータセット内のバイナリ特徴 (有毒/無毒など、2 つの値のみを持つ特徴) 間の関係を示しています。

図 2: データセット内のバイナリ特徴間の関係

X 軸: バイナリ特徴。

Y 軸: 各特徴の平均値。各特徴は、有毒であるかどうか、伝統的な薬として使用されているかどうかなど、さまざまな植物の属性を表します。

図に示すように、すべての植物種の 10% が伝統薬として使用され、有毒植物種の 77% が伝統薬として使用されます。研究者らは、この差異をサンプリングバイアスと呼び、サンプリングバイアスは民族植物学的アプローチによって引き起こされると提案しています。 

民族植物学とは、地元住民が病気の治療に使用する植物の探索と研究を通じて薬用植物を探索することです。しかし、地域や文化の違いにより、抗マラリア作用を持つ 1 つまたは複数の植物がデータセットに頻繁に出現し、抗マラリア作用を持つ可能性のある他の植物が無視される可能性があります。これがいわゆるサンプリングバイアスです。

モデルをより適切にトレーニングするために、研究者らはサンプリングのバイアスを修正しました。具体的な方法は、各植物種の重みを変更することです。逆確率重み付けが使用されます このようにして、モデルのトレーニングで各種のサンプルを同等に扱うことができるため、データセットの代表性とモデルのパフォーマンスが向上します。

実験結果表示

 モデルのトレーニングと検証 

この実験では、研究者たちは以下に基づいて訓練を受けましたサポート ベクター (SVC)、ロジスティック回帰 (Logit)、XGBoot (XGB)、およびベイジアン ニューラル ネットワーク (BNN) 4種類の機械学習モデル、これらのモデルを 2 つの民族植物学的アプローチと組み合わせました -伝統的な抗マラリア植物の発見と伝統的な薬用用途の発見比較のための(マラリア特有ではない)植物。

Logit、SVC、XGBをベースとした3モデルについては、研究者のトレーニング方法は、GridSearchCV アルゴリズムを通じてモデルのハイパーパラメータを調整し、F0.5 インデックスを使用してモデルのパフォーマンスを評価することです。その中で、研究者らは Logit と SVC に基づく 2 つのモデルの正則化パラメータ C と class_weight パラメータを調整し、XGB に基づくモデルの場合は max_ Depth パラメータを調整しました。

BNN ベースのモデルの場合、研究者らは、それぞれ 10 ノードと 5 ノードを備えた 2 層のニューラル ネットワークと、ターン活性化関数を使用しました。モデルは 100,000 回のマルコフ連鎖モンテカルロ反復を通じてトレーニングされました。

検証段階では、研究者らは、2 つの条件 (サンプリング バイアス補正なしとあり) で 10 分割層別交差検証を 10 回繰り返しました。 (10 分割層別相互検証を 10 回反復) メソッドを使用してモデルのパフォーマンスを評価します。

実験結果 

まず、サンプリングバイアスの補正を行わない場合、植物由来の抗マラリア化合物をスクリーニングするための研究者の実験結果は次のとおりです。

図 3: バイアス補正なし

機械学習モデルと 2 つの民族植物学的手法の比較

図にあるように、全体的には、機械学習モデルの平均スコアは、両方の民族植物学的手法の平均スコアよりも高かったまた、抗マラリア活性はデータの特徴 (BNN: 0.66、XGB: 0.66、Logit: 0.62、SVC: 0.65、Ethno (M): 0.57、Ethno (G): 0.50) から予測できます。

バイアス補正を行った後、植物由来の抗マラリア化合物をスクリーニングするための研究者の実験結果は次のとおりです。

図 4: バイアス補正の実行後

機械学習モデルと 2 つの民族植物学的手法の比較

図に示すように、トレーニング セットとテスト セットの重みが増加したため、モデルのパフォーマンスの分散は大きくなりましたが、しかし機械学習モデルは依然として民族植物学的アプローチよりも優れたパフォーマンスを示しました。研究者らは、従来のプラント選択手法の精度を 0.47 と推定しましたが、マシン モデルの予測精度は一般にこの数値よりも高かったです (BNN: 0.59、XGB: 0.63、Logit: 0.66、SVC: 0.67)。

しかし、この実験結果は機械学習モデルが抗マラリア活性を持つ植物を比較的正確に選別できることを示しているが、研究者らは次のように述べた。この実験にはまだ改善の余地があります。

* トレーニングデータを追加します:現在のトレーニング データ セットは比較的小さいため、モデルのパフォーマンスをさらに向上させるには、より多くの植物種データを追加する必要があります。

* サンプリングバイアスの問題を解決:この実験はサンプリング バイアスの問題の解決を試みましたが、さらに多くのバイアス補正方法を検討する必要があります。

* 機能選択の最適化:さらなる植物形質の選択と最適化が必要です。

* 種が少なすぎる、またはサンプルが不均一に分布している植物種のさらなるテスト:既存のデータで過小評価されている種については、より正確な結果を得るためにさらに多くの検査が必要です。

キュー ガーデン: 植物の力を発見する

この研究結果について、王立植物園の園長は次のように述べています。「私たちの結果が示しているのは、植物には新薬を生み出す大きな可能性があります。現在、維管束植物の既知の種は 34,300 種あると推定されていますが、その多くは詳しく研究されていません。私たちは、この点で機械学習手法を適用して、新しい薬用化合物を発見できることを期待しています。そして、これらの結果は、生物多様性の保護と天然資源の持続可能な開発の重要性も浮き彫りにしています。 」

世界的に有名なキュー王立植物園は、「キュー ガーデン」と呼ばれることがよくあります。キュー ガーデンズは、英国政府の環境・食料・農村省から資金提供を受けている国際的に有名な植物研究教育機関です。非政府の公的機関です。キューガーデンは次のことを目指しています。「生物多様性を保護し、人類が直面する地球規模の課題に対処するための自然ベースのソリューションを開発します。」

数か月ほど前、持続可能な開発に特化した基金であるグリーンスフィア・キャピタルがキューガーデンに1億ポンドを投資する計画であるというニュース報道がある。この投資は、持続可能な農業と、植物および菌類科学、生息地保全、農業および林業のプロジェクトを研究するための新しい研究者の採用に使用されます。