HyperAI초신경

토론토 대학은 11개 알고리즘을 수평적으로 비교 분석해 장기주입형 신약 개발 가속화를 위한 머신러닝 모델을 출시했다.

特色图像

"중국 주민 영양 및 만성질환 현황 보고서(2020)"에 따르면, 2019년 우리나라 사망자 중 만성질환으로 인한 사망자가 88.51%를 차지했습니다.만성 질환은 인간 건강을 위협하는 주요 '살인자'가 되었습니다.학자들이 "인류의 최악의 질병"이라고 부르는 만성 질환인 정신분열증을 예로 들어보겠습니다. 환자가 완쾌되기를 원한다면 장기간의 유지치료가 필요합니다. 그러나 이 기간 동안 환자는 다양한 이유로 약물 복용을 중단할 수 있으며, 이로 인해 재발이 발생할 수 있습니다.

만성 환자들의 약물 복용 불량 문제를 해결하기 위해 장시간 작용하는 주사제가 등장했습니다. 이 약은 특정 제제에 충분한 양의 약물을 녹여 주사를 통해 체내에 주입하여 작은 약물 "저장고"를 형성한 후 체내에서 약물을 천천히 방출하여 안정적인 치료 효과를 발휘하도록 만들어졌습니다. 기존 의약품과 비교했을 때,장시간 작용 주사는 투여 간격이 길고, 작용이 빠르며, 약물 투여량이 안정적이라는 장점이 있습니다.

반면, 이 새로운 유형의 약물에 대한 연구 개발 역시 매우 어렵습니다. 예를 들어, 특정 시간 내에 신체에서 약물이 최적으로 방출되도록 하려면 다양한 후보 제형에 대한 광범위한 실험이 필요합니다. 이러한 과정은 번거롭고 시간이 많이 걸리기 때문에 장기 작용 주사제의 추가 개발에 걸림돌이 되고 있습니다.

최근 토론토 대학의 연구자들은 머신 러닝 모델을 개발했습니다. 관련 실험 결과는 이 모델이 장시간 작용 주사제의 방출 속도를 정확하게 예측할 수 있고, 장시간 작용 주사제의 개발을 효과적으로 가속화할 수 있음을 보여줍니다.해당 연구는 Nature Communications 저널에 게재되었습니다.제목은 "중합체 장기 작용 주사제의 설계를 가속화하기 위한 머신 러닝 모델"입니다.

해당 연구 결과는 Nature Communications에 게재되었습니다.

서류 주소:

https://www.nature.com/articles/s41467-022-35343-w#Abs1

 실험 개요

장시간 작용하는 주사제에는 다양한 유형이 있는데, 일반적으로 지질과 합성 폴리머로 구성됩니다.아래 그림은 장기 작용 주사제 제형을 개발하는 데 있어 기존 방식과 데이터 기반 방식을 비교한 것입니다.

그림 1: 장기 작용 주사제에 대한 기존 및 데이터 기반 R&D 접근 방식의 개략도

그림: 미국 식품의약국에서 승인한 장기 작용 주사제의 투여 경로.

그림 b: 전통적인 장기 작용 주사제 제형 개발에 있어서의 전형적인 시행착오 주기.

그림 c: 장기 작용 주사제 제형의 개발 과정을 가속화하기 위해 훈련된 머신 러닝 모델을 사용하는 이 연구의 워크플로우 개요입니다.

이 실험적 데이터 세트는 이전에 발표된 연구 결과를 바탕으로 구성되었습니다.Web of Science 엔진을 사용하여 검색한 외부 소스의 데이터도 추가됩니다. 구체적으로, 이 데이터 세트에는 181개 약물과 43개 약물-중합체 조합의 방출량(주어진 시간 내에 방출되는 약물 분자의 수)이 포함되어 있습니다. 동시에 연구자들은 구축된 데이터 세트를 두 개의 하위 집합으로 나누었습니다.이들은 각각 모델 학습과 테스트에 사용됩니다.

장기 작용 주사제 데이터 세트

출판사:토론토 대학교

포함된 수량:181개 약물 및 43개 약물-중합체 조합 출시

예상 크기:394.1KB

출시 시간:2022

다운로드 주소:hyper.ai/데이터셋/23625

실험 절차

이 연구에서 연구진은 총 11개의 머신 러닝 알고리즘을 훈련시켰습니다.다중 선형 회귀(MLR), 최소 절대 수축 및 선택 연산자(Lasso), 부분 최소 제곱 회귀(PLS), 결정 트리(DT), 랜덤 포레스트(RF), 가벼운 그래디언트 부스팅 머신(LGBM), 극단적 그래디언트 부스팅(XGB), 자연스러운 그래디언트 부스팅(NGB), 지원 벡터 회귀(SVR), k 최근접 이웃 알고리즘(k-NN) 및 신경망(NN)을 포함합니다.

모델 선택 

이러한 머신 러닝 모델의 예측 성능을 평가하기 위해 연구자들은 내부(훈련 및 검증) 루프와 외부(테스트) 루프로 구성된 중첩 교차 검증 방식을 사용했습니다. 연구자들은 구체적인 과정을 통해 먼저 약물-중합체 조합에 따라 데이터 세트를 그룹화했습니다.그런 다음, 각 머신 러닝 모델에 대해 10개의 중첩 교차 검증 실험이 수행되었습니다.

마지막으로, 내부 및 외부 중첩 교차 검증 루프에서 각 머신 러닝 모델의 예측 성능은 아래의 표 1과 그림 2에 요약되어 있습니다. 표 1은 중첩 교차 검증(n=10)에서 다양한 머신 러닝 알고리즘을 사용하여 약물 방출을 예측한 후 얻은 평균 절대 오차(MAE) 값과 평균 표준 오차(σM, 괄호 안에 표시)를 보여줍니다. 표에서 볼 수 있듯이,트리 기반 머신 모델은 일반적으로 선형, 인스턴스 기반 및 딥 러닝 모델보다 정확합니다(MAE < 0.16).

표 1: 중첩 교차 검증에서 각 머신 러닝 모델의 예측 성능

그림 2는 중첩 교차 검증(n=10)에서 얻은 약물 방출 예측의 절대 오차(AE) 값을 보여줍니다. 표 1과 그림 1의 정보를 결합하면, LGBM 기반 모델은 11개 모델 중 내부 루프와 외부 루프 모두에서 가장 작은 MAE 값과 AE 값을 갖습니다. 그러므로,연구자들은 LGBM 기반 모델이 예측 성능이 가장 좋다고 믿고 있습니다.

그림 2: 각 알고리즘 모델의 전체 예측 성능

그림의 상자 안의 검은색 원과 검은색 점선은 각각 각 모델의 MAE 값과 AE 값을 나타냅니다.

모델 최적화 

머신러닝 모델의 일반화 능력을 더욱 향상시키기 위해,연구진은 또한 클러스터 분석을 통해 17개 특징을 갖춘 LGBM 모델을 최적화하고 개선했습니다.

여기서 그들은 아래 그림에 표시된 것처럼 가장 먼 이웃 클러스터링 알고리즘을 사용하여 입력 기능을 계층 구조로 배열했습니다. 연구자들은 17개 기능에서 중복성을 발견했습니다. 개선 후,결정적인15가지 특징을 갖춘 LGBM 모델이 가장 좋은 성능을 보이는 것으로 나타났습니다.

그림 3: 초기 17개 입력 기능의 스피어만 상관 계수 히트 맵

진한 파란색은 절대 스피어만 상관계수(순위 데이터를 기반으로 두 변수 간의 상관관계를 연구하는 방법)가 1임을 나타내고, 분홍색은 절대 스피어만 상관계수가 0임을 나타냅니다. 히트맵과 함께 응집형 계층적 군집 분석을 통해 식별된 특성 군집의 계층을 보여주는 덴드로그램이 제공됩니다.

실험 결과 

연구진은 위의 최적 모델을 얻은 후 두 가지 테스트를 수행했습니다. 하나는 모델을 사용하여 특정 장기 작용 주사 약물의 약물 방출 곡선을 예측하는 것이었고, 다른 하나는 모델을 사용하여 테스트 세트에서 약물 중합체의 약물 방출 곡선을 예측하는 것이었습니다. 그 결과를 실험적 약물 방출 곡선과 비교하였고, 그 결과는 아래 그림에 나타나 있다.

그림 4는 선택된 장기 작용 주사제에 대한 예측 및 실험 약물 방출 프로파일을 비교한 것을 보여주고, 그림 5는 약물-고분자 및 실험 약물 방출 프로파일에 대한 약물 방출 프로파일을 비교한 것을 보여줍니다. 두 경우 모두 다음과 같은 것을 볼 수 있습니다.예측값과 실험값은 기본적으로 일치합니다.따라서 연구진은 LGBM 알고리즘을 기반으로 한 모델이 장시간 작용 주사제의 약물 방출 속도를 정확하게 예측할 수 있다고 믿고 있습니다.

그림 4: 데이터 세트에서 장기 작용 주사에 대한 예측 및 실험 약물 방출 곡선 비교

그림 5: 약물-중합체 예측 및 해당 실험 약물 방출 프로필 비교

가속 연합: 새로운 과학 연구 패러다임의 구현 지원

주목할 점은 다음과 같습니다.이 연구의 저자인 크리스틴 앨런과 앨런 아스푸루-구직은 모두 가속 컨소시엄(AC) 소속입니다.2021년에 시작된 Accelerator Alliance는 캐나다 토론토 대학에 본사를 둔 학계, 산업계, 정부 간의 새로운 글로벌 협업으로, AI와 로봇공학을 활용하여 새로운 소재와 분자의 발견과 설계를 가속화한다는 비전을 가지고 있습니다.

"우리의 목표는 과학을 가속화하는 것입니다."Accelerator Alliance의 이사인 알란 아스푸루-구직(Alán Aspuru-Guzik)은 "이 목표를 달성하기 위해 우리는 자율주행에 대한 사고방식을 자동화된 실험실로 확장하여 AI와 자동화를 활용해 더욱 스마트한 방식으로 실험할 수 있다는 것을 깨달았습니다."라고 말했습니다.

그림 6: Accelerator Alliance, 과학자가 자동 고체 분배 로봇에서 미리 분배된 시약을 꺼내고 있습니다.

지난달에 Accelerator Alliance가 Canada First Research Excellence Fund(CFREF)로부터 2억 달러의 보조금을 받았다는 점은 주목할 만합니다. 이 자금은 "자율주행 연구실" 분야에서의 이 연합의 작업을 지원하는 데 사용될 예정입니다. 토론토 대학교의 메릭 거틀러 총장은 다음과 같이 말했습니다."AI 기반 연구와 혁신에 대한 이러한 상당한 투자는 캐나다와 전 세계 사람들의 삶을 개선할 수 있는 잠재력을 가지고 있습니다.".

이 연구의 코드 주소:

https://github.com/aspuru-guzik-group/long-acting-injectables