첫 번째! 4개 주요 대학이 공동으로 약물 연구 및 개발을 위한 대규모 언어 모델인 Y-Mol을 출시했으며 전반적인 성능이 LLaMA2를 앞섰습니다.

ChatGPT, ChatGLM, LLaMA로 대표되는 대규모 언어 모델은 사람들이 미지의 세계를 탐험하는 데 강력한 도구가 되었습니다. 수십억 개의 매개변수를 가진 이 모델은 대규모 텍스트 코퍼스에 대한 신중한 학습을 통해 텍스트를 생성하고 맥락을 이해하는 강력한 역량을 보여주었습니다. 그러나 이러한 모델 대부분은 일반적인 작업에서는 좋은 성과를 보이지만, 특히 약물 개발과 같은 특정 분야에서는 상당한 어려움에 직면합니다.
자연어 처리 분야와 달리, 약물 연구 개발 분야는 통일된 표준 패러다임이 부족하며, 연구 개발 과정이 복잡하고 비용이 많이 듭니다. 또한 여기에는 계산화학, 구조생물학, 생물정보학 등 다양한 학문이 포함됩니다. 관련 데이터를 얻는 것은 어렵고, 약물 관련 개체 간의 상호 작용 데이터를 레이블링하려면 정교한 도메인 지식이 필요합니다.이러한 요소들로 인해 약물 연구 및 개발에서 대규모 언어 모델의 적용이 제한됩니다.
이에 대해 후난대학교, 중남대학교, 후난사범대학교, 샹탄대학교의 연구팀은 공동으로 다중 규모 생물의학 지식을 기반으로 하는 대규모 언어 모델 Y-Mol을 제안했습니다. Y-Mol은 다양한 텍스트 코퍼스와 지침에 따라 미세 조정할 수 있는 자기회귀 시퀀스-투-시퀀스 모델로, 약물 개발에 있어서 모델의 성능과 잠재력을 크게 향상시킵니다. 이는 대규모 언어 모델을 활용한 약물 개발 분야의 새로운 획기적인 발전입니다.
"Y-Mol: 약물 개발을 위한 다중 규모 생물의학 지식 기반 대규모 언어 모델"이라는 제목의 이 연구는 arxiv에 사전 인쇄본으로 게재되었습니다.
연구 하이라이트:
* Y-Mol은 약물 발견을 위해 구축된 최초의 대규모 언어 모델입니다.
* Y-Mol은 다중 규모 생물의학 지식을 통합하여 정보가 풍부한 교육 데이터 세트를 구축합니다.
* Y-Mol은 약물-약물 상호작용, 약물-표적 상호작용, 분자 특성 예측에 탁월하며 다양한 약물 개발 과제에 대한 이해와 다양성에 있어 강력한 역량을 보여줍니다.

서류 주소:
https://doi.org/10.48550/arXiv.2410.11550
공식 계정을 팔로우하고 "약물 개발 모델"에 답글을 달면 전체 PDF를 받을 수 있습니다.
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
두 가지 유형의 데이터 세트를 완전히 탐색하여 포괄적인 생물의학 코퍼스를 구축합니다.
Y-Mol의 사전 학습 데이터 세트를 구성하는 측면에서 이 연구에서는 두 가지 유형의 데이터 세트를 선택했습니다.생물의학 PubMed 출판물의 텍스트 코퍼스 생물의학 지식 그래프를 기반으로 구축된 지도 지침과 전문가 모델에서 추출한 추론 데이터입니다.
출판물에 있는 풍부한 생물의학 지식을 심층적으로 탐구하기 위해,이 연구에서는 PubMed 등의 온라인 출판 플랫폼에서 다양한 학문 분야에 걸쳐 3,300만 건 이상의 출판물을 추출하여 사전 처리했습니다.아래 그림 A에서 볼 수 있듯이, 연구자들은 이러한 출판물에서 눈에 보이는 초록과 서론을 생물의학 텍스트 데이터(재구성 텍스트)로 추출하여 코퍼스의 품질과 관련성을 보장했습니다.

생물의학 지식 기반에서 도메인 지식을 효율적으로 추출하기 위해 이 연구에서는 지식 기반의 사실을 자연어 프롬프트로 변환합니다.아래 그림 B에서 보듯이, 이 연구에서는 하위 그래프의 각 추론 체인이 명확한 관계적 의미론을 가지고 있다고 가정하고, 신중하게 설계된 템플릿을 프롬프트 컨텍스트로 사용하여 각각의 일관된 경로를 추출하고 자연어 설명으로 변환합니다. 그런 다음 연구에서는 이렇게 구성된 맥락을 해당 질문과 결합하고 이를 Y-Mol에 입력하여 지도 학습된 답변을 출력합니다.

또한, 약물 속성과 도메인 지식을 기반으로 대규모 지침을 얻기 위해 이 연구에서는 기존 소규모 모델에서 얻은 전문가 합성 데이터를 사용하여 지침을 구성하고 약물 지식 스펙트럼을 Y-Mol로 정제했습니다.궁극적으로 이 연구는 1,120만 개의 코퍼스 항목과 230만 개의 신중하게 작성된 지침을 하나로 모았습니다.
아래 그림 C에서 볼 수 있듯이, 특정 약물 분자에 대해 더욱 포괄적인 분자적 특성을 추출하기 위해 이 연구에서는 ADMETlab, RDKit, TDC, DrugBAN과 같은 일련의 고급 분자 도구와 계산 모델을 통합했습니다. 이러한 도구와 모델은 QED, SA, LogP, 독성, 흡수성, 하위 구조를 포함한 공개적으로 사용 가능한 데이터 세트에서 다양한 속성을 가진 분자 정보를 추출합니다. 이런 방식으로 연구에서는 최신 모델과 도구를 지속적으로 통합하고 예측 데이터를 사용하여 모델을 학습시킬 수 있으며, 이를 통해 Y-Mol은 실시간으로 발전하고 약물 개발 분야에서 선도적 위치를 유지할 수 있습니다.

마지막으로, 아래 그림에서 볼 수 있듯이, 이 연구는 사전 훈련과 지도 미세 조정 단계에서 다양한 작업에 대한 Y-Mol의 데이터 분포를 보여줍니다. 추론 능력 평가 측면에서, Y-Mol의 약물-표적 상호작용(DTI) 예측 및 약물-약물 상호작용(DDI) 예측 성능을 종합적으로 검증하기 위해,연구팀은 DTI 예측을 위해 널리 인정받는 벤치마크 데이터 세트인 DrugBank와 DrugCentral을 선택했습니다.

동시에 연구진은 DDI 예측의 성능을 평가하기 위해 Ryu와 Deng이 제공한 데이터 세트를 사용했습니다.이러한 평가 방법은 약물 개발 분야에서 산업 표준에 따라 Y-Mol이 공정하고 포괄적으로 테스트되어 그 효과를 입증할 수 있도록 신중하게 선택되었습니다.
Ryu의 데이터 세트: https://doi.org/10.1073/pnas.1803294115
Deng의 데이터 세트: https://doi.org/10.1093/bioinformatics/btaa501
Y-Mol: LLaMA2-7b 기반, 약물 개발에 전념
이 연구에서는 약물 개발을 위한 고급 학습 및 추론 프레임워크인 Y-Mol을 구축하기 위해 기본적인 대규모 언어 모델로 LLaMA2-7b를 선택했습니다. 아래 그림과 같이,Y-Mol의 개발은 두 가지 주요 단계로 나뉩니다.
첫 번째,Y-Mol은 생물의학 분야의 대규모 출판물을 사전 학습하고 자체 감독 사전 학습을 통해 LLaMA2를 미세 조정하여 약물 개발에 대한 기본 지식을 갖출 수 있도록 합니다.그 다음에,LLaMA2는 약물 관련 도메인 지식과 전문가 합성 데이터를 사용하여 추가로 감독되고 세부 조정됩니다. 이 과정을 통해 약물 관련 정보가 대량으로 Y-Mol에 입력되어, 약물 개발 과정에서의 상호작용 메커니즘에 대한 모델의 이해도가 향상됩니다.

이 연구에서는 다양한 지침 세트를 신중하게 설계하고 Y-Mol을 미세하게 조정했습니다. 이러한 지침에는 분자 텍스트 쌍의 지침과 약물 데이터베이스에서 추출한 설명이 포함되었습니다. 이러한 설명은 자연어로 약물의 특성, 구조, 기능을 제시하며 풍부한 의미 정보를 담고 있어 약물 개체에 대한 인식에서 사람과 대규모 언어 모델 간의 일관성을 강화하는 데 도움이 됩니다.
아래 그림에서 보듯이, 이 연구에서는 생성된 명령어를 지도 학습의 입력으로 사용하여 Y-Mol에 공급합니다. 구체적으로, 구성된 프롬프트 컨텍스트와 질문이 Y-Mol에 입력되고, 이렇게 구성된 답변은 모델에서 생성된 출력을 감독하는 데 사용됩니다.

연구자들은 생성된 지침을 기반으로 Y-Mol을 신중하게 미세 조정한 후, 주요 화합물 발견에서 임상 전 및 임상 예측까지 여러 링크를 포괄하는 다양한 하위 작업에 적용했습니다. 이러한 감독 하에 이루어지는 미세 조정 방법을 통해 Y-Mol은 약물 개발 과정에서 발생하는 복잡한 문제를 보다 정확하게 이해하고 처리할 수 있으며, 컴퓨터 지원 약물 개발을 위한 강력한 도구를 제공합니다.
연구 결과: Y-Mol이 가장 좋은 예측 성능을 보였다
약물 연구 및 개발 분야에서 Y-Mol의 효과를 완벽하게 검증하기 위해 이 연구에서는 선도 화합물 발견, 임상 전 연구, 임상 예측 등 다양한 단계를 포괄하는 일련의 과제를 신중하게 설계했습니다.구체적으로, 주요 업무는 다음과 같습니다: (1) 선도 화합물 발견을 위한 가상 스크리닝 및 약물 설계; (2) 발견된 선도화합물의 전임상단계에서의 물리적, 화학적 특성 예측 (3) 임상단계에서 발생할 수 있는 약물 부작용의 예측.
가상 스크리닝에서는알려지지 않은 약물-표적 상호작용 쌍을 식별하는 것이 중요합니다. 아래 표에서 볼 수 있듯이, LLaMA2와 비교했을 때 DrugBank와 DrugCentral 데이터 세트에서 Y-Mol의 AUC 점수는 각각 5.02%와 4.13%만큼 향상되었습니다. 이는 Y-Mol이 다중 스케일 데이터 소스의 DTI 예측에서 좋은 성능을 보이며, 가상 스크리닝에서 뛰어난 성능을 보인다는 것을 보여줍니다.

약물 설계에서,이 연구에서는 Y-Mol이 새로운 선도 화합물을 발견하는 데 있어서 어떤 성능을 보이는지 검증하기 위해 특정 조건에서 효과적인 화합물을 생산하는 과제도 설계했습니다. 즉, 목표 조건과 설명적 쿼리가 주어졌을 때 Y-Mol이 컨텍스트 정보로부터 해당 SMILES 시퀀스 분자를 정확하게 생성할 수 있는지 평가했습니다.
아래 표에서 볼 수 있듯이, 이 연구에서는 BBB, LogP와 같은 다양한 단일 목표를 예측하기 위해 유효성, 고유성, 참신성, 다양성과 같은 표준 지표를 도입했습니다. 결과는 Y-Mol이 전반적인 성능이 더 좋다는 것을 보여주었습니다. 비교해 보면, LLaMA2-7b 모델의 도메인 적응 능력만이 낮은 성능을 보였고 효과적인 분자를 생성할 수 없었습니다. 동시에 이 연구에서는 다양한 목표 하에 Y-Mol의 약물 설계 성능을 테스트했습니다. 결과는 이 경우에도 Y-Mol이 좋은 성능을 보인다는 것을 보여주었습니다.

분자 특성 예측에서,아래 그림에서 볼 수 있듯이, Y-Mol은 모든 작업에서 LLaMA2보다 낮은 R² 점수를 보이는데, 이는 Y-Mol이 물리화학적 특성을 예측하는 데 있어 일반화 능력이 더 강하다는 것을 나타냅니다.

약물 개발의 임상 단계에서는 약물 간 상호작용의 가능성을 예측하는 것이 약물의 안전한 사용을 보장하는 데 중요합니다.아래 그림에서 볼 수 있듯이 Y-Mol은 잠재적인 약물 상호작용(DDI)을 식별하는 작업에서 좋은 성과를 보입니다.

아래 그림과 같이,Y-Mol이 설계한 약물은 질의에서 제기된 제약 조건을 효과적으로 충족합니다. 마찬가지로 Y-Mol은 주어진 분자의 LogD7.4를 정확하게 예측할 수 있으며, 예측된 결과는 실제 값과 매우 가깝습니다.이는 Y-Mol이 약물 개발 과제를 해결하는 데 효과적임을 보여줍니다.

AI 기술: 약물 개발의 새로운 엔진
사실, 약물 개발의 긴 여정에서 과학자들은 그 과정을 가속화할 수 있는 새로운 기술을 찾아왔습니다. 최근 몇 년 동안 AI 기술은 이 분야에서 큰 응용 잠재력을 보여주었습니다. 그들은 질병 메커니즘을 깊이 이해할 수 있을 뿐만 아니라, 약물 발견 및 임상 시험과 같은 핵심 단계에서 중요한 역할을 할 수 있습니다.
사업계에서는일부 회사는 AI 약물 개발에서 놀라운 성과를 달성했습니다. 예를 들어, AI 약물 개발 회사인 Insilico Medicine은 올해 초 특발성 폐 섬유증 치료를 위한 새로운 메커니즘을 갖춘 새로운 임상 후보 약물을 발견했다고 발표했는데, 이는 다양한 인간 세포 및 동물 모델 실험을 통해 검증되었습니다. 또한, 화웨이 클라우드는 중국과학원 상하이약학연구소와 협력하여 판구 약물 분자 모델을 출시했습니다. 이를 통해 인공지능을 이용한 소분자 약물의 전 과정에 대한 약물 설계가 가능해져 약물 연구 개발의 효율성과 정확성이 향상될 수 있습니다.
과학 연구 분야에서이 연구의 저자 중 한 명인 후난 대학의 증샹샹 교수 연구팀은 펩타이드 서열을 위한 대규모 언어 모델을 설계하고 점진적으로 계산 및 스크리닝 조건을 추가하여 모델을 훈련했습니다. 단 3개월 만에 이 모델은 29개의 잠재적인 항균 펩타이드를 성공적으로 설계하고 합성했으며, 그 중 26개는 광범위한 항균 활성을 보였습니다. 쥐 실험에서, 세 가지 항균 펩타이드는 FDA 승인 항생제와 비슷한 항균 효과를 보였으며, 최대 25일간의 연속 배양 및 모니터링 동안 뚜렷한 약물 내성은 관찰되지 않았습니다. 이 결과는 Nature Communications에 공식적으로 수용되었습니다.
논문 링크:
https://www.nature.com/articles/s41467-024-51933-2
또한, 이 연구의 또 다른 저자인 중남대학교의 카오 동성 교수는 저장대학교의 후팅쥔 교수와 셰창위 교수와 함께 분자 최적화 도구인 Prompt-MolOpt를 최근 공동으로 개발했습니다. 이 알고리즘은 다중 속성 최적화에서 제로샷 학습과 퓨샷 학습의 적용을 실현하기 위해 신속한 학습 훈련 전략을 사용합니다.
논문 링크:
https://www.nature.com/articles/s42256-024-00916-5
질병 메커니즘에 대한 심층적인 이해부터 약물 발견의 가속화, 임상 시험 설계의 최적화까지, AI 기술은 약물 연구 개발을 위한 새로운 엔진이 되고 있습니다. 기술이 계속 발전함에 따라 미래 의학 연구에서 점점 더 중요한 역할을 하게 될 것입니다.
