HyperAI초신경

영국 큐 가든은 기계 학습을 사용하여 말라리아에 대한 식물 저항성을 예측하여 정확도를 0.46에서 0.67로 높였습니다.

特色图像

말라리아는 전 세계적으로 유행하고 있는 기생충병입니다. 이 질병은 모기를 통해 전파되며, 매개체 매개 질병 중에서도 발병률과 사망률이 높은 편입니다. 최신 세계 말라리아 보고서에 따르면, 2021년에 전 세계 말라리아 전염병이 더욱 심화되었습니다.올해는 신규 확진자가 2억 4,700만 명, 사망자가 61만 9,000명으로 추산됩니다.

현재, 약물 치료는 여전히 전 세계적으로 말라리아 예방 및 치료의 주요 수단이며, 많은 약물의 항말라리아 활성 천연 분자는 식물에서 유래되었습니다.따라서 연구자들은 새로운 식물 유래 항말라리아 화합물을 찾기 위해 노력해 왔습니다.그러나 이러한 목표를 달성하려면 수많은 식물을 선별하고 테스트해야 하는데, 이는 시간이 많이 걸리고 비용도 많이 드는 과정입니다.

최근, 큐 왕립식물원과 세인트앤드루스 대학의 연구자들은 머신러닝 알고리즘이 식물의 항말라리아 특성을 0.67의 정확도로 효과적으로 예측할 수 있음을 보여주었습니다. 이는 기존 실험 방법의 0.46보다 상당히 향상된 수치입니다.현재, 해당 연구 결과는 "머신러닝을 통해 식물의 항말라리아제 잠재적 공급원 예측이 향상된다"라는 제목으로 저널 Frontiers in Plant Science에 게재되었습니다.

해당 연구 결과는 Frontiers in Plant Science에 게재되었습니다.

데이터 세트 및 샘플링 편향 보정

이 실험의 중요한 목표 중 하나는 식물 특성 데이터를 사용하여 기계 학습 모델을 훈련하여 식물의 항말라리아 활동을 예측할 수 있는지 평가하는 것입니다.첫 번째,연구진은 겐티아나목(Gentianales)의 3개 꽃식물과(Apocynaceae, Loganaceae, Rubiaceae)에 속하는 21,100종의 식물에 대한 데이터 세트를 제공했습니다.이 식물에는 항말라리아 알칼로이드인 퀴닌과 그 이성질체인 퀴니딘 등 많은 알칼로이드가 함유되어 있는 것으로 밝혀졌습니다.

그림 1: 협죽도, Strychnos nux vomica 및 꼭두서니과에서 발견되는 항말라리아 알칼로이드의 예

A: 아스피도카르핀은 협죽도과 식물에서 발견되는 알칼로이드입니다.

B: 스트리크노구신, 스트리크나과 식물에서 발견되는 알칼로이드.

C: 퀴닌은 꼭두서니과 식물에서 발견되는 알칼로이드로, 현재 항말라리아 약물에 널리 사용됩니다.

데이터 세트에는 특히 식물 형태적 특성, 생화학적 특성, 성장 환경 조건 및 지리적 위치에 대한 정보가 포함됩니다.다음 그림은 이 데이터 세트에서 이진 특성(독성/비독성과 같이 두 가지 가능한 값만 갖는 특성) 간의 관계를 보여줍니다.

그림 2: 데이터 세트의 이진 기능 간 관계

X축: 이진 특성.

Y축: 각 특성의 평균값으로, 각 특성은 독성이 있는지, 전통 약으로 사용되는지 등 다양한 식물 속성을 나타냅니다.

그림에서 보듯이 모든 식물종의 TP3T는 101종이 한약재로 사용되고 있고, 유독식물종의 TP3T는 771종이 한약재로 사용되고 있다.연구자들은 이러한 차이를 표본 추출 편향이라고 부르며, 이는 민족식물학적 접근 방식에 기인한다고 제안합니다. 

민족식물학은 지역 주민들이 질병을 치료하는 데 사용하는 식물을 찾아 연구하여 약용 식물을 찾는 학문입니다.그러나 지역과 문화의 차이로 인해하나 이상의 항말라리아 식물이 데이터 세트에 자주 나타나는 반면, 항말라리아 특성이 있는 다른 식물은 무시될 수 있습니다. 이것을 표본 편향이라고 합니다.

연구자들은 모델을 더 잘 훈련시키기 위해 표본 편향을 보정했습니다.구체적인 방법은 각 식물 종을 다시 가중치를 부여하는 것입니다. 즉,역 확률 가중치가 사용됩니다 ,이런 방식으로 각 종 샘플을 모델 학습에서 동등하게 처리할 수 있어 데이터 세트의 대표성과 모델 성능이 향상됩니다.

실험 결과 표시

 모델 학습 및 검증 

이 실험에서는연구자들은 훈련을 받았습니다지원 벡터 머신(SVC), 로지스틱 회귀(Logit), XGBoot(XGB), 베이지안 신경망(BNN) 4개의 머신 러닝 모델,이러한 모델은 2가지 민족식물학적 방법과 결합되었습니다.전통적인 항말라리아 식물과 전통적인 약용 용도를 찾아서(말라리아에만 국한되지 않는) 비교를 위한 식물입니다.

Logit, SVC 및 XGB를 기반으로 하는 세 가지 모델의 경우,연구자들의 훈련 방법은 GridSearchCV 알고리즘을 통해 모델의 하이퍼파라미터를 조정하고 F0.5 지표를 사용하여 모델 성능을 평가하는 것입니다.연구진은 이 중 두 모형의 정규화 매개변수 C와 class_weight 매개변수를 Logit과 SVC를 기반으로 조정하였다. XGB 기반 모델의 경우, max_depth 매개변수를 조정했습니다.

BNN 기반 모델의 경우, 연구진은 각각 10개와 5개의 층으로 구성된 두 개의 신경망 층과 Tahn 활성화 함수를 사용했습니다.이 모델은 100,000번의 마르코프 체인 몬테카를로 반복을 통해 학습되었습니다.

검증 단계에서,연구자들은 두 가지 경우(표본 편향 보정 없이, 표본 편향 보정 포함)에 대해 10번의 반복을 포함하는 10겹 계층 교차 검증을 사용했습니다. 10배 계층 교차 검증 방법을 10번 반복하여 모델 성능을 평가했습니다.

실험 결과 

첫째, 표본 편향 보정 없이,연구진이 식물 유래 항말라리아 화합물을 선별한 실험 결과는 다음과 같습니다.

그림 3: 편향 보정 없음

두 가지 민족식물학 방법을 적용한 머신러닝 모델 비교

그림에서 보는 바와 같이 전체적으로기계 학습 모델의 평균 점수는 두 가지 민족식물학적 방법의 평균 점수보다 높았습니다.,그리고 데이터 특징(BNN: 0.66, XGB: 0.66, Logit: 0.62, SVC: 0.65, Ethno(M): 0.57, Ethno(G): 0.50)으로부터 항말라리아 활동을 예측할 수 있습니다.

바이어스 보정을 수행하면,연구진이 식물 유래 항말라리아 화합물을 선별한 실험 결과는 다음과 같습니다.

그림 4: 바이어스 보정이 수행되는 경우

두 가지 민족식물학 방법을 적용한 머신러닝 모델 비교

그림에서 보듯이 학습 세트와 테스트 세트에 가중치를 더했기 때문에 모델 성능의 분산이 더 높지만,하지만머신 러닝 모델은 여전히 민족식물학적 접근 방식보다 더 나은 성과를 보였습니다.연구자들은 기존 식물 선발 방법의 정확도를 0.47로 추정한 반면, 기계 모델의 예측 정확도는 일반적으로 이 수치보다 높았습니다(BNN: 0.59, XGB: 0.63, Logit: 0.66, SVC: 0.67).

그러나 이 실험 결과는 기계 학습 모델이 항말라리아 활성을 가진 식물을 비교적 정확하게 선별할 수 있음을 보여주지만 연구자들은 다음과 같이 말했습니다.이 실험에는 아직 개선이 필요한 부분이 몇 가지 있습니다.

* 훈련 데이터 증가:현재 학습 데이터 세트는 비교적 작으며, 모델 성능을 더욱 개선하려면 더 많은 식물 종 데이터를 추가해야 합니다.

* 표본 편향 문제를 해결하세요:이 실험은 표본 추출 편향 문제를 해결하려고 시도했지만, 더 많은 편향 보정 방법을 탐색할 필요가 있습니다.

* 기능 선택 최적화:더 많은 식물 특성 선택과 최적화가 필요합니다.

* 식물 종이 너무 적거나 샘플 분포가 고르지 않은 식물 종에 대한 추가 테스트:기존 데이터에서 제대로 표현되지 않은 종의 경우, 더 정확한 결과를 얻으려면 추가 테스트가 필요합니다.

큐 가든, 큐: 식물의 힘을 발견하세요

이 연구 결과에 대해 큐 왕립식물원 원장은 다음과 같이 말했습니다.“우리의 결과는식물은 새로운 약을 생산할 수 있는 큰 잠재력을 가지고 있습니다.약 34,300종의 관속식물이 알려져 있지만, 그 중 많은 종이 과학적으로 광범위하게 연구되지 않았습니다.우리는 머신 러닝 방법을 이와 관련하여 적용하여 새로운 약용 화합물을 찾을 수 있기를 바랍니다.또한 이러한 결과는 생물다양성을 보호하고 천연자원을 지속 가능하게 개발하는 것이 중요하다는 점을 강조합니다. "

세계적으로 유명한 큐 왕립식물원은 종종 "큐 가든"이라고 불립니다. 큐 가든은 영국 정부의 환경, 식품, 농촌부에서 자금을 지원받는 국제적으로 유명한 식물 연구 및 교육 기관입니다. 비정부 공공기관입니다. 큐의 목표는 다음과 같습니다."생물다양성을 보호하고, 인류가 직면한 세계적 과제를 해결하기 위한 자연 기반 솔루션을 개발합니다."

약 몇 달 전,지속 가능한 개발에 전념하는 기금인 그린스피어 캐피털이 큐 가든에 1억 파운드를 투자할 계획이라는 보도가 있습니다.투자는 지속 가능한 농업과 식물 및 균류 과학, 서식지 보호, 농업 및 임업과 같은 프로젝트를 연구할 새로운 연구원 모집에 사용될 예정입니다.