NVIDIA는 사고 사슬 분자 합성의 비유를 활용하여 매우 높은 재구성 속도와 경로 다양성을 달성하는 ReaSyn을 제안합니다.

현대 신약 개발의 핵심 과제는 거의 무한한 화학 공간 내에서 치료적 잠재력을 가진 분자를 정확하게 식별하는 것입니다. 기존의 신약 개발은 종종 이중 딜레마에 직면합니다. 화학 공간은 엄청나게 넓어서 단 10개의 원자로 구성된 분자의 수가 최대 10⁶⁰개에 달할 수 있기 때문에 스크리닝은 마치 건초더미에서 바늘을 찾는 것처럼 어렵습니다. 더욱이 후보 분자는 활성, 독성, 용해도를 포함한 여러 요건을 충족해야 합니다. 이로 인해 개발 주기가 10년을 초과하는 경우가 많고, 비용은 수십억 달러에 달하며, 성공률은 10⁶TP3T 미만입니다.
분자 생성 모델은 한때 이러한 가능성을 제시했습니다. 분자 구조 생성을 시뮬레이션하는 알고리즘을 사용하는 이 기술은 연구 주기를 크게 단축하고 "주문형 설계"까지 가능하게 할 것으로 기대되었습니다. 그러나 실제로 모델로 생성된 분자는 실험실에서 합성하기가 어려운 경우가 많았습니다. 이러한 "종이 기반" 한계는 모델 생성 모델의 실질적인 가치를 심각하게 제한했습니다.
이러한 병목 현상을 극복하기 위해 학계는 두 가지 전략을 시도해 왔습니다. 하나는 "합성 가능성"을 최적화 목표로 삼고 스코어링을 통해 합성이 용이한 분자의 생성을 유도하는 것입니다. 그러나 구조-합성 가능성 관계의 복잡성과 실험 변수를 포괄하는 스코어링의 어려움으로 인해 그 효과는 제한적입니다. 다른 하나는 모델을 알려진 합성 가능 분자만 탐색하는 데 국한시키는 것입니다. 이 방식은 제어 가능성을 향상시키지만 구조적 혁신을 저해합니다. 따라서 "합성 가능한 투영" 전략이 주목을 받고 있습니다. 이 전략의 핵심은 합성 불가능한 분자를 유사한 구조와 명확한 합성 경로를 가진 유사체로 "교정"하는 것입니다.이 전략은 활성 화합물 확장 및 리드 최적화와 같은 작업을 지원하기 위해 여러 생성 방법을 유연하게 통합할 수 있습니다.
이러한 맥락에서,NVIDIA 연구팀이 출시한 통합 추론 기능을 갖춘 효율적이고 합성 가능한 분자 투영 프레임워크인 ReaSyn반응 연쇄(CoR) 표현을 채택하고 합성 경로를 LLM의 사고 연쇄(CoT) 추론 경로로 간주함으로써 분자 합성의 실제 문제를 해결하는 새로운 경로가 열렸습니다.
합성 가능한 분자의 재구성에서,ReaSyn은 가장 높은 재구성 속도와 경로 다양성을 달성했습니다.또한 합성 가능한 타겟 지향 분자 최적화에서 최고의 최적화 성능을 달성했으며, 합성 가능한 히트 확장 작업에서 기존 방법보다 상당히 우수한 성능을 보였습니다.
관련 연구 결과는 "반응 사슬을 통한 분자 합성 가능성 재고"라는 제목으로 arXiv에 게재되었습니다.
연구 하이라이트:
* 본 연구에서는 합성 경로를 추론을 위한 설명 가능한 사고 사슬로 변환하기 위해 ReaSyn 프레임워크와 반응 사슬(CoR) 표현을 제안합니다.
* 맞춤형 RL 미세 조정 및 계산 확장 솔루션은 모델의 탐색 효율성과 최적화 성능을 크게 향상시킵니다.
* 다중 작업 실험을 통해 합성 가능한 분자의 생성 및 최적화에 있어서 프레임워크의 효과성과 다용성이 확인되었습니다.
서류 주소:
https://arxiv.org/abs/2509.16084
공식 계정을 팔로우하고 "ReaSyn"에 답글을 남겨 전체 PDF를 받으세요.

더 많은 AI 프런티어 논문:
실제 약물 개발에 가까운 데이터 세트 구축
이 연구에서는 먼저 115가지 일반적인 반응 유형을 포함하는 반응 세트를 사용하고 Enamine US 재고 카탈로그에서 얻은 212,000개의 구매 가능한 구성 요소와 결합하여 실제 약물 개발 시나리오에 가까운 실험 프레임워크를 구축했습니다.이들은 합쳐서 크기가 10⁶⁰ 분자를 초과하는 합성 화학 공간을 정의합니다.이 실험은 "합성 가능한 분자를 재구성하는" 작업에 초점을 맞춰, 주어진 분자에 대한 실행 가능한 합성 경로를 생성하여 대규모 화학 공간을 포괄할 수 있는 모델의 능력을 테스트하는 것을 목표로 합니다.
테스트 세트 설계에서 연구팀은 서로 다른 과제를 지닌 여러 분자 세트를 사용했습니다.Enamine REAL 다양성 데이터세트와 ChEMBL 데이터베이스에서 무작위로 선정된 1,000개 분자의 기준 테스트 세트 외에도, 약물 개발 과정에서 "빌딩 블록 목록 업데이트"의 실제 시나리오를 시뮬레이션하기 위해 확장 테스트 세트를 구축했습니다. ZINC250k 라이브러리에서 중원자가 18개 미만인 37,000개 이상의 분자를 새로운 빌딩 블록으로 선정하고, 이 확장된 목록에서 1,000개의 테스트 분자를 생성했습니다. 이 실험에는 기존 연구와의 비교 가능성을 보장하기 위해 Luo 등이 제안한 ChEMBL 테스트 세트도 포함되었습니다.
ReaSyn 프레임워크: 분자 표현에서 추론 향상으로 이어지는 진보적 기술 경로
ReaSyn 프레임워크는 합성 가능한 분자의 투영에서 발생하는 주요 추론 병목 현상을 해결하는 것을 목표로 합니다.그 기술적 경로는 분자 표현의 혁신에서 추론 능력의 향상에 이르기까지 점진적인 논리를 따릅니다.
아래 그림에서 볼 수 있듯이, 본 연구는 먼저 합성 가능한 화학 공간을 명확하게 정의했습니다. 이 공간은 일련의 구성 요소와 일련의 반응 규칙에 의해 결정됩니다. 각 반응은 SMARTS 언어를 사용하여 반응물에서 생성물로의 변환을 설명하는 반면, 합성 가능한 공간은 반응 규칙을 반복적으로 적용하여 초기 구성 요소에서 얻을 수 있는 모든 생성물의 집합을 나타냅니다. 이러한 프레임워크 내에서, 합성 가능한 투영의 핵심 목표는 주어진 표적 분자 𝑥에 대한 합성 경로 𝑝를 생성하여 경로의 최종 생성물과 𝑥 사이의 구조적 유사성을 극대화하는 것입니다.

ReaSyn의 전체 프레임워크
분자 합성 경로의 표현 측면에서는 아래 그림과 같이,ReaSyn은 혁신적으로 "반응 사슬(CoR)" 표현 전략을 제안했습니다.이는 기존의 "합성 트리 접미사 표현"의 다양한 한계를 극복합니다. 기존 방식은 자기회귀 생성을 지원하지만, 반응 규칙의 암묵적 학습 필요성, 계층적 예측의 오류 전파 취약성, 빌딩 블록 지문 표현의 단사성 부족과 같은 본질적인 단점을 가지고 있습니다.
반응 사슬 표현 방법은 다재다능함을 유지하면서도 세 가지 중요한 혁신을 이루었습니다. 화학 반응 수준에서 사고 사슬(CoT)을 통합하고, 계층적 분류 없이 완전한 경로 예측을 달성하고, 분자 지문에 대한 의존성을 없앴습니다.
구체적인 구현에서, 합성 경로는 여러 기능 블록으로 분해되며, 각 블록은 통합된 어휘를 공유합니다. 분자 블록은 특수 태그가 있는 SMILES 문자열로 표현되고, 반응 블록은 단일 토큰으로 표현됩니다. 마지막으로, 스플라이싱 작업을 통해 완전한 경로 시퀀스가 형성됩니다.

모델 학습은 지도 학습과 강화 학습 미세 조정을 결합한 2단계 전략을 채택합니다.
지도 학습 단계에서는 대상 분자와 합성 경로의 쌍을 이루는 데이터를 사용하여 다음 토큰을 예측하는 목표로 Transformer 모델을 훈련합니다.그리고 중간 제품의 도움으로 보다 풍부한 감독 신호를 제공하는 동시에, 다양한 유형의 토큰의 학습 강도를 균형 있게 조절하기 위해 토큰 유형 가중 손실 함수를 설계합니다.온라인 강화 학습 알고리즘은 강화 학습 미세 조정 단계에서 사용됩니다.보상 메커니즘은 모델이 더 효과적인 경로를 탐색하도록 유도하는 데 사용됩니다. 손실 함수는 경로 보상의 극대화를 고려할 뿐만 아니라 모델 동작의 안정성에도 초점을 맞추어 지도 학습의 탐색 능력 한계를 효과적으로 보완합니다.
추론 단계에서는ReaSyn은 스택 구조와 빔 탐색 메커니즘을 결합하여 목표 지향적인 테스트 시간 컴퓨팅 확장을 달성하고 다양한 작업 요구 사항에 따라 스코어링 전략을 맞춤화합니다. 스택은 반응물과 중간체를 동적으로 관리하여 단계별 추론 과정을 지원합니다. 빔 탐색은 여러 개의 고득점 후보 경로를 유지함으로써 탐색 다양성을 유지합니다.
분자 재구성 과제에서,점수 매기기 전략은 표적 분자의 정확한 재생산을 보장하기 위해 구조적 유사성과 반응 가능성에 초점을 맞춥니다. 분자 최적화 및 활동 확장 작업에서는 구성 요소와 중간체의 표적 속성을 평가하기 위해 보상 모델이 도입되어 이상적인 속성을 가진 합성 가능한 분자를 찾도록 안내하고 합성 가능한 공간 내에서 목표 지향적인 탐색과 최적화를 실현합니다.
실험 결과: 멀티태스킹 성능이 SynNet 및 기타 방법을 능가하며, 절제 실험을 통해 핵심 구성 요소의 효과가 검증되었습니다.
실험 결과는 다음 표에 나타나 있다.ReaSyn은 여러 핵심 작업에서 기존 SynNet 및 SynFormer 방법보다 종합적으로 우수한 성능을 보여줍니다.

합성 가능한 표적 분자를 최적화하는 작업에서,이 연구는 ReaSyn이 기존 최적화 방법의 실용성을 어떻게 개선할 수 있는지에 초점을 맞췄습니다.이 작업은 그래프 유전 알고리즘(Graph GA)을 기본 프레임워크로 사용하고, ReaSyn을 번식 단계 이후에 도입하여 합성 가능한 투영 처리를 수행하여 획득된 분자가 모두 합성 가능한 공간에 있는지 확인합니다. 이 방법을 Graph GA-ReaSyn이라고 합니다.
실험은 두 부분으로 나뉩니다. 하나는 TDC 오라클 함수를 기반으로 한 일반적인 속성 최적화이고, 다른 하나는 가용성 에폭시드 가수분해효소(sEH)에 대한 결합 친화도의 표적 최적화입니다.
TDC 임무에서,아래 표에서 볼 수 있듯이 Graph GA-ReaSyn은 15가지 최적화 작업에서 "AUC 상위 10" 지표에서 모든 합성 제약 기반 기준선 방법을 능가했으며, 합성 접근성 점수(SA 점수)는 기존 Graph GA보다 유의미하게 우수했습니다. 이는 ReaSyn이 최적화 성능을 유지하면서 합성 가능성을 효과적으로 향상시켰음을 나타냅니다. sEH 친화도 최적화에서 ReaSyn은 결합 친화도, SA 점수, 약물 유사성(QED) 측면에서 FragGFN, SynFlowNet, SyntheMol과 같은 방법을 능가했습니다.특히, 목표 속성과 합성 가능성의 균형을 맞추는 데 있어서의 장점이 강조됩니다.

합성 활성 화합물의 범위를 확대하는 작업에서,ReaSyn은 빔 탐색을 사용하여 알려진 활성 화합물의 구조적으로 유사하고 합성 가능한 여러 유사체를 생성하여 후보 분자 라이브러리를 확장합니다. 이 실험에서는 JNK3 억제제를 연구 대상으로 삼고, ZINC250k 데이터베이스에서 상위 10개의 분자를 시작점으로 선택하여 각 분자에 대해 100개의 유사체를 생성했습니다."아날로그 비율", "개선 비율", "성공 비율"의 세 가지 지표를 기준으로 평가한 결과, ReaSyn은 모든 지표에서 기존 방법보다 우수한 성과를 보였습니다.
AI 기반 합성 경로 예측은 합성 가능한 분자 설계의 혁신을 촉진합니다.
ReaSyn과 같은 AI 기반 합성 경로 예측 기술이 개발되는 동안, 전 세계 학계와 기업 커뮤니티에서도 이 분야를 적극적으로 탐구하여 다양한 경로에서 합성 가능한 분자의 설계에 혁신을 주도하고 있습니다.
학술 연구는 종종 새로운 방법과 그 기저 메커니즘의 획기적인 발전에 초점을 맞춥니다. 예를 들어,토론토 대학에서 개발한 데스크톱 로봇 시스템인 Organa는컴퓨터 비전과 대규모 언어 모델(LLM)을 결합하면 자연어 명령을 표준 화학 설명 언어 χDL 코드로 변환하고, 일부 화학 실험실 작업을 자동화하고, 이를 통해 과학자의 구두 명령을 실험 과정으로 전환할 수 있습니다.
리버풀 대학이 독자적으로 개발한 AI 화학자, 모바일 로봇 화학자8일 동안 688개의 실험이 완료되었고, 일주일 동안 1,000개의 촉매 공식이 연구되었으며, 새로운 촉매가 발견되었습니다.
비즈니스 세계의 혁신은 첨단 기술을 실제 생산성으로 전환하고 이를 기존 워크플로에 통합하는 데 더 중점을 둡니다.인공지능 약물 연구 개발을 전문으로 하는 영국 기업인 베네볼런트AI와 머크의 전략적 협력은 매우 대표적입니다.전자는 영국 케임브리지에 위치한 습식 실험실 시설과 결합된 엔드투엔드 AI 플랫폼의 화학 설계 도구를 활용하여 머크의 약물 연구 개발 파이프라인에 활성 화합물 식별부터 전임상 후보 분자 개발까지 풀체인 지원을 제공합니다. 핵심은 대규모 언어 모델의 합성 경로 추론 기능을 활용하여 생성된 저분자 화합물이 높은 활성과 합성 가능성을 모두 갖도록 보장함으로써, 컨셉트에서 후보 분자로의 전환 주기를 크게 단축하는 것입니다.
AI 기반 바이오테크 기업인 인실리코 메디슨(Insilico Medicine)은 엔드 투 엔드(end-to-end) 신약 개발에서 합성 접근성 설계의 실질적인 가치를 입증했습니다. 생성 AI를 사용하여 설계된 인실리코의 특발성 폐섬유증 후보 약물 INS018_055는 내장된 ReaSyn 유사 합성 가능 프로젝션 모듈을 사용하여전임상 연구에서 TP3T 합성에 100% 성공률을 달성했습니다.게다가 타겟 발굴부터 후보 분자 결정까지 걸리는 시간은 18개월로 업계 평균보다 60% 더 짧습니다.
학계와 산업계의 다양한 탐구는 진입점과 기술적 경로는 다르지만 모두 하나의 목표를 지향합니다. 즉, 혁신적인 방법을 통해 유용한 분자를 설계하고 합성하는 능력과 효율성을 개선하고 궁극적으로 약물 연구 개발 및 신소재 개발과 같은 많은 분야에 새로운 자극을 불어넣는 것입니다.
참조 링크:
1.https://mp.weixin.qq.com/s/Mz64afMOOI_7m-Nqg_m5oQ
2.https://mp.weixin.qq.com/s/1Juv9z1-mUOR6Sip4KwvgQ
3.https://mp.weixin.qq.com/s/vhhb2OUtCRpbPLg8j4YsYQ