HyperAI초신경

성공률은 100%에 달할 수 있습니다. 약물 개발 회사 Cellarity는 강화 학습을 기반으로 표적 분자를 최적화하기 위해 NVIDIA와 협력했습니다.

特色图像

고대부터 현재까지 인류는 질병과의 싸움을 멈춘 적이 없습니다. 새로운 약물의 등장은 수천 명의 생명을 구할 수 있고, 심지어 인간의 전체 수명을 연장할 수도 있습니다.

100년 넘게 이어져 온 약물 연구와 개발의 역사를 돌이켜보면, 흥미로운 일화들이 많이 있습니다. 예를 들어, 19세기 초, 독일 약사의 보조원인 젤티나는 아편을 뜨거운 물에 담근 다음 암모니아수로 추출하여 아편에서 흰색 가루 덩어리를 분리했습니다. 이 흰 가루를 개에게 먹였고, 개는 그것을 먹은 후 곧 기절했습니다.그래서 그는 꿈의 그리스 신인 모르페우스의 이름을 따서 그것을 모르핀이라고 이름지었습니다.따라서 모르핀은 일반적으로 식물에서 분리된 세계 최초의 활성 성분으로 간주되며, 현대 약물 혁신의 출발점으로 여겨지기도 합니다.

이후 약사들은 점차 화학 약물을 합성하는 기술을 터득하였고, 독일의 약사 셀만은 아스피린의 전신인 아세틸살리실산을 합성했습니다. 20세기 초,신약에 대한 기업의 수요는 고처리량 스크리닝 기술의 개발을 촉진했으며, 이를 통해 과학자들은 더욱 효율적으로 다수의 화합물을 스크리닝하고 테스트할 수 있게 되었습니다. 21세기 초,연구자들은 더욱 정확하고 효과적인 약물 치료법을 모색하기 시작했으며, 그 중에서도 표적 약물이 인기 있는 연구 방향이 되었습니다.

오늘날 인공지능 기술의 급속한 발전으로 신약 개발에 새로운 가능성이 열리고 있습니다. AI는 약사가 약물 표적을 보다 빠르게 검증하고 약물 구조 설계를 최적화하는 데 도움을 줄 수 있으며, 심지어 특정 물리화학적 특성이나 생물학적 활성을 가진 분자를 직접 생성하여 약물 발견을 크게 가속화할 수도 있습니다.

이러한 맥락에서,생명과학 회사 Cellarity와 NVIDIA의 연구진은 잠재 강화 학습인 MOLRL을 기반으로 하는 새로운 표적 분자 최적화 방법을 공동으로 제안했습니다.이 접근 방식은 대규모 화학 데이터 세트로 사전 학습된 강력한 생성 모델과 연속 공간 최적화를 위한 최첨단 강화 학습(RL) 알고리즘을 결합합니다. 연구진은 이 방법을 약물 발견 관련 업무에 적용하고, 일반적인 벤치마크를 사용하고, 최신 방법과 비교한 결과, MOLRL이 다양한 업무에서 우수하거나 경쟁력 있는 성과를 보였으며, 특히 표적 분자 생성과 다중 매개변수 최적화 분야에서 우수하거나 경쟁력 있는 성과를 보였다는 것을 발견했습니다.

관련 결과는 "잠재적 강화 학습을 통한 표적 분자 생성"이라는 제목으로 ChemRxiv에 게재되었습니다.

서류 주소:

https://go.hyper.ai/H4JhR

공식 계정을 팔로우하고 "대상 분자 최적화"에 답글을 남겨 전체 PDF를 받으세요.

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.

https://github.com/hyperai/awesome-ai4s

경로 선택: 분자 직접 수정 vs. 잠재 공간에서 작동

약물 개발은 매우 복잡한 과정입니다. 생물학적 활성 외에도 화합물은 임상 후보로 선택되기 위해 여러 가지 다른 특성을 가져야 합니다. 치료적 활동이 있는 것으로 확인된 화합물(종종 "후보 화합물"이라고 함)의 구조는 확정된 것이 아니라 용해도와 활동성이 부족하다는 문제를 해결하기 위해 오랜 반복적 과정을 거쳐 수정됩니다.

반복적인 과정을 통해 약사는 일반적으로 직관이나 반응 기반 라이브러리에서 계산을 통해 초기 분자를 변형하여 유사체를 설계합니다. 그러나 화학 공간의 엄청난 크기를 고려하면 단일 분자에 대한 설계조차 매우 어려워지고, 전체 화학 공간에 대한 철저한 평가가 필요하게 됩니다. 표적 분자 생성을 위한 계산적 방법은 화학 공간을 효율적으로 탐색하고 화학자들에게 이전에 탐색되지 않은 구조를 추천할 수 있습니다.

현재, 표적 분자 생성 및 최적화 방법은 두 가지 범주로 나눌 수 있습니다.첫 번째 방법은 분자 구조에 직접 작용하는 것입니다.목표 속성을 개선하는 구조적 수정을 식별합니다.두 번째 방법 범주는 생성 모델의 잠재 공간에서 작동합니다.잠재적 표현을 통해 간접적으로 분자 구조를 수정합니다.

방법 1은 원자나 화학 결합을 삽입하거나 삭제하여 구조를 수정할 수 있으며, 업계에서는 상당한 진전이 이루어졌습니다.

지난해 11월 한국과학기술원(KAIST) 박윤수 교수팀이 혁신적인 단일 원자 편집 기술을 개발했다고 보도됐습니다. 이 기술은 광촉매를 도입합니다.약물 분자의 단일 원자 편집은 실온 및 실압 상태에서 성공적으로 달성되었습니다.연구팀이 개발한 "분자 가위" 기술은 5원환 구조를 정확하게 절단하고 연결하여 산소 원자를 질소 원자로 대체하고, 분자 특성을 변화시켜 약물의 효능을 향상시킬 수 있습니다. 관련 연구 결과는 "광촉매적 푸란-피롤 전환"이라는 제목으로 Science에 게재되었습니다.

하지만 분자에 대한 수술을 마음대로 시행하는 것은 쉽지 않습니다. 한편, 구조적 변형은 화학의 규칙을 위반하여 잘못된 분자 구조를 초래할 수 있습니다. 반면, 분자 구조는 본질적으로 불연속적이며 화학 결합을 추가하거나 삭제하는 것은 불연속적인 연산을 수반하기 때문에 이러한 불연속성으로 인해 최적화 과정에서 불연속적인 기울기가 발생하여 기울기 기반 방법을 효과적으로 적용하기 어렵습니다.

방법 1과 비교했을 때,두 번째 접근 방식은 최적화 작업을 연속 최적화 문제로 변환하고, 생성 모델의 잠재 공간을 활용하며, 경사 하강법과 같은 연속 공간 최적화 알고리즘을 채택합니다.그럼에도 불구하고, 잠재 공간의 한 지점이 유효한 분자에 해당한다는 보장이 없기 때문에 화학적 타당성은 여전히 어려운 문제로 남아 있습니다. 그러나 새로운 아키텍처와 훈련 수정을 통해 생성 모델은 잠재 공간에서 효과성과 연속성을 개선하는 데 상당한 진전을 이루었습니다.

Cellarity와 NVIDIA의 연구에서 연구진은 근접 정책 최적화(PPO) 방법을 사용하여 사전 학습된 생성 모델의 잠재 공간을 최적화하기 위해 MOLRL을 제안했습니다.

잠재 강화 학습을 기반으로 하는 표적 분자 최적화 방법인 MOLRL

MOLRL 프레임워크는 어떻게 작동하나요?

MOLRL 프레임워크는 잠재 공간 생성 모델과 강화 학습(RL) 에이전트의 두 부분으로 구성됩니다.

생성 모델은 RL 에이전트가 작동하는 화학 공간을 잠재 공간에 인코딩하는 사전 학습된 인코더-디코더 모델입니다. RL 에이전트는 PPO 방법을 사용하여 훈련됩니다.잠재 공간을 탐색하려면; 보상 기능은 에이전트에게 피드백을 제공합니다.그들이 공간을 탐색하는 방법을 배우도록 도와주세요.원하는 특성을 가진 분자를 식별합니다.

아래에 표시된 대로 입력 분자의 잠재 표현 "z"는 정책 네트워크의 출력에서 추출된 동작 "a"에 의해 교란됩니다. 교란된 잠재 벡터 "z′"는 분자로 디코딩되고 보상 함수에 의해 점수가 매겨집니다. 상태 "z", 행동 "a", 보상 "R"은 수집되어 정책 네트워크를 업데이트하는 데 사용됩니다.

MOLRL 방법 개요

이 프레임워크는 인코더와 디코더의 아키텍처에 구애받지 않지만, 잠재 공간의 특성은 최적화 성능에 큰 영향을 미칩니다. 따라서 연구진은 두 가지 다른 인코더-디코더 아키텍처, 즉 변형 자동 인코더(VAE)와 상호 정보 머신 러닝(MolMIM)을 기반으로 학습된 자동 인코더에서 MOLRL의 성능을 평가했습니다.

강화 학습(RL) 에이전트는 잠재 공간을 탐색하여 원하는 분자적 특성을 가진 분자를 식별하는 역할을 합니다. 연구자들은 RL 에이전트를 훈련시키기 위해 PPO(근위 정책 최적화)를 사용했습니다.PPO 알고리즘은 장기 누적 보상을 최대화하는 정책을 최적화하여 잠재 공간에서 최적의 경로를 찾도록 에이전트를 안내합니다.보상 기능은 MOLRL 프레임워크의 핵심으로, 분자의 표적 속성(약물 유사성, 합성 접근성, 표적 결합 등)에 따라 에이전트에게 피드백을 제공합니다.

MOLRL 프레임워크의 성능은 어떻습니까?

MOLRL 프레임워크의 성능을 평가하기 위해 연구진은 다목적 최적화 작업을 설계하고 이를 현재 최첨단 최적화 방법과 비교했습니다.

구체적으로 연구진은 MOLRL을 적용하여 약물 유사성(QED)과 합성 접근성(SA)을 모두 최적화하는 동시에 두 가지 표적을 표적으로 삼는 생물학적으로 활성한 분자를 생성했습니다. 선택된 생물학적 표적은 알츠하이머병과 관련된 두 가지 키나제, 즉 GSK3β와 JNK3였습니다. 연구진은 Jin 등의 평가 전략을 기반으로 최적화 과정에서 생성된 가장 높은 보상값을 가진 상위 5,000개 분자를 기록하고 성공률, 진기함; 그리고 다양성.

다음 표는 VAE-CYC 잠재 공간에서 학습된 MOLRL과 MolMIM 공간에서 학습된 MOLRL의 성능을 보여주며, 문헌에 보고된 최신 분자 최적화 방법의 성능 비교도 보여줍니다.

생물학적 목표인 생물학적 활성, QED 및 SA에 대한 다중 매개변수 최적화

표에서 볼 수 있듯이 FaST는 강화 학습(RL)을 사용하여 분자 조각을 결합하여 분자 그래프를 구성합니다.비교된 모든 방법 중에서 더 높은 성공률을 보여줍니다. FaST와 RationaleRL은 다양성과 참신성 측면에서 장점이 있으며, 두 방법 모두 기존 지식을 활용합니다. REINVENT와 MOLRL은 둘 다 ML 분류기의 학습 범위에서 멀리 떨어져 있는 무작위 분자에서 시작합니다.MOLRL은 여전히 RationaleRL과 비교 가능한 참신성을 달성했으며 가장 높은 성공률을 달성했습니다.

기존 지식을 시작점으로 사용하는 것은 어느 정도 장점이 있지만, 참신함과 알고리즘이 새로운 골격을 발견하는 능력을 제한할 수도 있습니다. 더욱이 사전 지식이 전혀 없는 경우, 예를 들어 미지의 대상을 연구하는 경우 이러한 방법을 적용하는 것은 제한적입니다.

다목적 최적화 작업 외에도 약물 발견에서 일반적인 접근 방식은 특정 표적이나 표적 클래스에 결합하는 것으로 알려진 화학적 스캐폴드를 식별하고 이를 화학적 설계 및 최적화의 시작점으로 사용하는 것입니다. 따라서 본 논문은 MOLRL이 특정 분자 골격을 보존하면서 다목적 속성을 최적화하는 능력을 더욱 검증합니다. 다음 표에서 보는 바와 같이,아미노피리미딘 골격을 포함하는 분자를 최적화할 때 MOLRL은 100%의 성공률을 달성했습니다.

다양한 σ 값에서 모델의 성공률, 고유성 및 다양성 비교

요약하자면, MOLRL은 다양한 작업에서 기존 방법에 비해 우수하거나 경쟁력 있는 성과를 보여줍니다.특히 표적 분자 생성과 다중 매개변수 최적화에 있어서 그렇습니다.

AI는 약물 발견 효율성을 개선하는 데 중요한 단계입니다.

새로운 약을 개발하려면 얼마나 많은 자원이 필요합니까? 제약 산업에는 유명한 "더블텐 규칙"이 있는데, 이는 새로운 약물을 발견하고 시장에 출시하는 데 10년과 10억 달러가 걸린다는 것을 말합니다. Deloitte가 발표한 최신 보고서에 따르면, 임상 시험 실패 비용을 고려하면 세계 최고의 제약 회사들이 신약을 시장에 성공적으로 출시하는 데 드는 평균 비용은 다음과 같습니다.2010년 11억 8,800만 달러에서 2022년 22억 8,400만 달러로 증가했습니다.

약물 발견의 핵심 단계는 계산적 연구나 합성 및 특성화를 위한 후보 분자 배치를 찾는 것입니다. 이는 잠재적 분자의 화학적 공간이 거대하고 시행착오에 드는 비용이 엄청나게 크기 때문에 어려운 작업입니다. 오늘날 인공지능과 머신러닝은 이 단계의 효율성을 효과적으로 개선할 수 있습니다.

2023년 10월 31일Novartis Institutes for BioMedical Research와 Microsoft Research Center for Scientific Intelligence는 협력하여"선호도 머신 러닝을 통한 의약 화학적 직관 추출"이라는 제목의 연구 논문이 Nature Communications에 게재되었습니다.

연구진은 35명의 의약 화학자에게 5,000쌍의 분자 중에서 선호하는 분자를 선택하도록 요청한 다음, 이들의 응답을 바탕으로 순위 게임을 만들어 머신 러닝 모델을 훈련시킨 다음, 모델에 분자에 대한 점수를 매기도록 요청했습니다. 이 점수는 업계 내에서 수년간 축적된 지식에서 나온 것이므로 이전에 해당 분야의 특징이었던 다른 속성에 크게 영향을 받지 않습니다.

이 모델은 전문 화학자들이 업무 과정에서 축적한 집단적 지식, 즉 종종 "화학적 직관"이라고 불리는 것을 부분적으로 재현할 수 있어 향후 약물 개발을 더욱 효율적으로 만들 수 있습니다.

2024년 3월, 선도적인 AI 제약 회사인 Insilico Medicine은 Nature Biotechnology에 과학 연구 논문을 발표했습니다. 논문에는 IPF 치료를 위한 새로운 타겟 TNIK을 발견하기 위해 인공지능 플랫폼을 사용한 방법과 이후 생성 화학 플랫폼을 사용하여 ISM001-055 분자를 설계하는 과정에 대한 내용이 자세히 설명되어 있습니다.

ISM001-055는 세계 최초의 소분자 억제제입니다.특발성 폐섬유증(IPF) 치료를 위한 TNIK(Traf2/NCK 상호작용 키나제) 표적. 인실리콘밸리실리콘은 생성적 AI가 R&D 효율성을 크게 개선하고, R&D 비용을 절감하며, R&D 초기 단계에서 R&D 성공률을 높일 수 있다고 밝혔습니다. 특발성 폐섬유증에 대한 분자를 예로 들면, 초기 표적 발견부터 임상 전 후보 화합물 식별까지,단 18개월이 걸렸고, 연구 개발 비용으로 260만 달러가 투자되었습니다.

포춘 비즈니스 인사이트의 조사 보고서에 따르면, 약물 발견 분야에서 인공지능의 글로벌 시장 규모는 2022년에 30억 달러에 달했으며, 2023년 35억 4천만 달러에서 2030년 79억 4천만 달러로 성장할 것으로 예상되며, 연평균 성장률은 12.21%가 될 것으로 전망됩니다. 미래에 AI 기술은 제약 산업에 큰 변화를 가져올 잠재력을 가지고 있습니다.

참고문헌:
1.https://mp.weixin.qq.com/s/OL7TJQcUE-ubhUDyc7GBzQ
2.https://www.thepaper.cn/newsDetail_forward_29097303
3.https://news.bioon.com/article/6127e7234091.html
4.https://bydrug.pharmcube.com/news/detail/49720140c1e9d57ac3c7cfe20ef7f8be
5.https://mp.weixin.qq.com/s/UGAXWMhPlSg2hFnI5ghr1w