최고의 기술보다 8배 더 빠름: 후팅쥔 외 저장대학교의 연구진은 단백질 포켓을 기반으로 한 3D 분자 생성 모델인 ResGen을 제안했습니다.

저자: 빈빈
편집자: 이보주, 산양
저장대학과 지장연구실 연구팀은 단백질 포켓을 기반으로 한 3D 분자 생성 모델인 ResGen을 제안했습니다. 기존 최적기술과 비교했을 때 속도가 8배나 빨라졌고, 결합에너지가 낮고 다양성이 높은 약물 유사 분자를 성공적으로 생성했습니다.
과거에는 혁신적인 약물을 발견하는 데 종종 고대 공식이나 실험 중의 우연한 사건에 의존했는데, 페니실린이 그 예입니다. 수년에 걸쳐 분자생물학과 계산화학의 발전으로 약물 설계 패러다임이 맹검 검사에서 합리적 설계로 전환될 수 있었습니다.
이러한 사실에도 불구하고, 약물 연구 및 개발 설계는 여전히 긴 연결고리와 높은 비용을 수반하는 여러 단계의 과정이며, 각 단계의 효율성을 개선하는 것은 막대한 가치가 있습니다. 최근 몇 년 동안 AI와 빅데이터와 같은 기술이 널리 적용되면서, AI 지원 약물 설계는 반복적인 실험을 통해 점차 성숙해지고 있습니다. AI는 약물 연구 및 개발의 여러 측면에서 효율성과 품질을 개선하기 위해 업그레이드와 개혁을 거치고 있습니다.
그 중에서도 고품질 분자 생성 모델은 선도 화합물 발견의 효율성을 효과적으로 향상시킬 수 있습니다. 현재 대부분의 분자 생성 작업은 리간드 기반 방법(LBMG)을 사용하지만, 이 방법은 분자와 표적 간의 상호작용 모드를 고려할 수 없다는 등 많은 한계가 있습니다. 따라서 연구자들은 표적 구조에 기반하여 해당 분자를 생성하는 방법인 구조 기반 분자 생성(SBMG) 방법에 점점 더 많은 관심을 기울이고 있습니다.
저장대학교 Hou Tingjun 교수와 Xie Changyu 교수지장 연구실천광용과 그의 팀은 단백질 포켓을 기반으로 한 3D 분자 생성 모델인 ResGen을 제안했습니다.이 모델은 단백질 표적과 리간드 간의 고차원 상호작용을 포착하고 더 높은 계산 효율을 달성할 수 있는 병렬 다중 스케일 모델링 전략을 채택합니다.
분자 생성 과정은 단백질 포켓의 기하학을 더 잘 설명하기 위해 전역 자기회귀와 원자 자기회귀로 공식화되었습니다. 연구 결과에 따르면 ResGen을 통해 생성된 분자는 기존의 최첨단 방법에 비해 화학 구조가 더 합리적이고 표적 친화성이 더 뛰어난 것으로 나타났습니다.

신문을 받으세요:
https://www.nature.com/articles/s42256-023-00712-7
전체 PDF를 받으려면 WeChat 공개 계정에서 "3D 분자 생성"을 답장하세요.
데이터 세트: 훈련 세트와 테스트 세트 간의 시퀀스 유사도는 40% 미만입니다.
이 연구에서 사용된 학습 데이터 세트는 CrossDock2020으로, 단백질-소분자 상호작용 연구, 특히 단백질 포켓에 대한 분자의 결합 능력을 평가하는 데 사용됩니다.
이 데이터 세트의 초기 데이터에는 2,200만 개 이상의 단백질-리간드 쌍이 포함되어 있습니다. 훈련 세트와 테스트 세트 간의 서열 유사성이 40% 미만인지 확인하기 위해 연구진은 약 100,000개의 단백질-리간드 쌍을 검사하여 얻었습니다. 테스트 세트에는 100개의 단백질 포켓이 포함되어 있습니다.
데이터 세트 링크:
ResGen 모델: 두 개의 계층적 자기 회귀
ResGen 모델은 단백질 포켓 인식에 따른 분자 생성 문제를 전역적 규모와 원자 구성 요소 규모의 두 가지 규모에서 자기회귀 문제로 공식화합니다.이 중 글로벌 자기회귀는 ResGen에 의해 생성된 각 원자가 이전 단계에서 생성된 분자 조각과 단백질 포켓 구조를 기반으로 한다는 것을 의미합니다. 원자 자기회귀는 새로 추가된 원자 좌표와 위상을 차례로 생성합니다.
ResGen은 분자 생성 과정 전체를 단계별 샘플링으로 분해하여 자기회귀 방식으로 전체 분자를 생성할 수 있습니다. 또한, 연구팀은 고차원 상호작용을 더 잘 포착하고 계산 비용을 줄이기 위해 이 3차원 조건 생성 문제에 병렬 다중 스케일 모델링 기술을 도입했습니다.

* 그림 A는 분자 생성 과정에서 성장점이 점진적으로 확정되고, 원자가 추가(전역 자기회귀)되며, 원자의 위치가 확정되고, 그 후 에지가 추가(원자 자기회귀)되는 과정을 보여줍니다.
* 그림 B는 포켓과 참조 분자가 원자적 특징(벡터)과 원자 좌표(스칼라)로 표현되는 것을 보여줍니다.
* 그림 E는 분자 생성 과정을 보여줍니다. i의 회색 점 구름은 위치 정보가 있는 새로 생성된 원자를 나타냅니다. ii의 녹색 점 구름은 보충 원자 유형을 갖춘 새로 생성된 원자입니다. 빨간색 원은 각 단계의 초점 원자(성장점)를 나타내며, 숫자는 각 원자가 성장점이 될 확률을 나타냅니다.
효과 검증: 현재 최적 모델보다 우수
쭉,단백질 포켓을 기반으로 하는 3D 분자 생성 모델에는 널리 사용되는 두 가지 테스트 지표가 있습니다. 모델이 다양한 단백질 포켓에 있는 리간드의 특징적인 위상 분포(즉, 표적의 분자 그래프 분포)를 학습했는지 여부와 포켓에 있는 리간드의 분포를 학습했는지 여부입니다.기하 분포(즉, 원자의 위치와 형태의 합리성).
이를 위해 연구팀은 ResGen과 기존의 최첨단 모델에 대한 일련의 평가를 수행했습니다.
첫 번째 테스트 지표의 경우, 연구팀은 테스트 세트의 표적과 실제 치료 표적을 위해 설계된 분자의 결합 에너지와 약물 유사 특성을 평가했습니다.
두 번째 테스트 지표에 대해 연구팀은 형태적 합리성 실험을 설계하고 단백질과 소분자 간의 상호작용 패턴을 분석했습니다.
테스트 세트에서 분자 생성: 모델 일반화 능력 평가

비교 결과 ResGen에서 생성된 분자가 더 우수한 성능을 보였다는 것이 밝혀졌습니다. 그래프BP 그리고 Pocket2Mol이 생성한 분자.
* 그래프BP:3D 그래프 신경망을 사용하여 의미 정보를 추출한 다음 자기 회귀 흐름 모델을 통해 순차적으로 원자를 생성합니다. 주어진 단백질에 결합하는 3차원 분자는 특정 유형과 위치의 원자를 주어진 결합 부위에 하나씩 배치하여 생성됩니다.
* 포켓투몰:3차원 단백질 포켓의 화학적, 기하학적 특징을 모델링하는 데 사용되며 포켓 조건에 따라 새로운 3D 약물 후보를 샘플링하기 위한 새로운 효율적 알고리즘을 채택합니다.
위 그림에서 보듯이, Vina Score는 생성된 분자와 해당 단백질 표적 사이의 결합 에너지를 나타냅니다. 이 지표는 모델이 주머니 속의 화학적 환경을 감지하는지 여부를 어느 정도 반영할 수 있습니다.
Vina Score에서 ResGen의 성과는 다음을 의미합니다.ResGen은 표적에 더 단단히 결합하는 분자를 생성할 가능성이 더 높습니다.연구팀은 ResGen이 다중 스케일 모델링을 사용하여 구조를 특성화하기 때문에 이러한 구조가 단백질 포켓과 리간드 간의 고차원적 상호작용(예: 단편-잔기 상호작용)을 포착하는 데 더 적합하기 때문일 수 있다고 생각합니다.
또한, 유기 화합물이 약물 후보로 개발될 수 있는지 여부는 단백질과의 상호작용 강도뿐만 아니라 약물 유사성과 합성 가능성에 달려 있습니다. 따라서 QED, SA, Lipinski, LogP와 같은 약물 유사성 지표가 평가에 포함되었습니다. ResGen은 SA와 Lipinski 지표에서 가장 높은 점수를 받았습니다.이는 ResGen이 인식되지 않은 단백질 포켓에 대해 쉽게 합성 가능한 약물 유사 리간드를 생성할 수 있는 잠재력이 더 크다는 것을 시사합니다.
실제 표적에 대한 분자 생성: 현실적인 시나리오에서의 성능 평가
연구팀은 실제 약물 설계 시나리오에서 모델의 성능을 평가하기 위해 단백질 키나아제 B의 AKT1과 CDK2(사이클린 의존성 키나아제 2)를 케이스로 사용하고, 실험적 활성을 갖는 표적 구조와 리간드 화합물을 분류한 후, 비활성 소분자 배치를 무작위로 선택하여 음성 대조군으로 사용했습니다.

위의 그림은 각 분자 그룹의 결합 친화도 분포를 보여줍니다. 분포가 왼쪽으로 치우칠수록 결합 에너지의 절대값이 커지고 친화도가 높아집니다. 결과에 따르면 ResGen(녹색)으로 생성된 분자는 음성 대조군(무작위) 및 기타 기존 최첨단 모델보다 점수가 높을 뿐만 아니라, Active보다 전반적인 분포가 약간 더 나은 것으로 나타났습니다.
결합 길이 분포 실험: 형태적 타당성 평가
구조적 합리성 실험에서 연구팀은 직접 생성된 분자 구조와 기존 구조 분석 소프트웨어로 생성된 분자 구조 사이의 제곱 평균 편차를 계산하고, 생성된 샘플과 훈련 분자 사이의 결합 길이 분포를 비교했습니다.
7가지 결합 길이 중,ResGen은 5가지 결합 길이 중에서 가장 좋은 성능을 보이며 GraphBP보다 훨씬 더 뛰어난 성능을 보입니다(약 10배).. 기존의 두 가지 최첨단 모델과 비교했을 때, ResGen은 더욱 매끄러운 형태를 생성하는데, 이는 단백질 포켓 내부의 복잡한 기하학적 분포를 포착하는 강력한 능력을 보여줍니다.

알파폴드 예측 구조 분석: 상호 작용에 대한 모델 민감도 평가
연구팀은 ResGen이 표적 기하학과 단백질-소분자 상호작용에 대한 모델의 민감도에 따라 달라지는 상호작용 패턴을 성공적으로 학습했는지 확인하기 위해 X선 결정 구조와 AlphaFold 예측 구조를 기반으로 두 그룹의 분자를 생성하고 두 그룹의 분자의 구조적 특징을 비교했습니다.

결정 구조와 AlphaFold 예측 구조를 기반으로 생성된 분자입니다. 흰색 리간드는 공결정 리간드이고, X Å는 예측된 구조와 정렬 후의 실제 구조 사이의 RMSD입니다. 첫 번째 열의 흰색 구체는 가능한 결합 부위를 나타냅니다.
AlphaFold가 예측한 형태는 결정 형태에 존재하는 포켓을 "닫아" 모델이 원래 포켓 위치에서 완전한 분자를 생성할 수 없게 하고 대신 새로 형성된 공동에서 작은 조각을 생성하게 합니다. 이는 ResGen의 분자 생성 프로세스가 주어진 단백질 포켓에 민감하게 의존한다는 것을 나타냅니다.

AlphaFold에서 예측한 구조에서 형성된 포켓은 결정학적 포켓보다 차이가 적지만, 모델은 여전히 이러한 변화를 포착할 수 있습니다. ResGen에 의해 생성된 분자는 AlphaFold가 예측한 형태의 공동 구조를 더 많이 차지합니다(그림의 빨간색 원 참조).
이 실험은 ResGen이 표적 구조에 민감하다는 것을 보여주고, SBMG 전략에 있어 올바른 단백질 구조의 중요성을 시사합니다.
「AlphaFold2는 단백질 구조를 추론합니다자세한 튜토리얼:
https://openbayes.com/console/public/tutorials/m6k2bdSu30C
AlphaFold 단백질 구조 데이터 세트:
https://openbayes.com/console/public/datasets/ETTgyY1oZat/1/overview
데이터세트를 다운로드하지 않고도 한 번의 클릭으로 입력하려면 "원문 읽기"를 클릭하세요.
Hou Tingjun: 컴퓨터 지원 약물 설계의 핵심 문제 연구에 전념
분자 생성은 전형적인 다목적 최적화 작업입니다. 우리가 만들어내는 분자는 좋은 친화성을 가져야 할 뿐만 아니라, 약물로서의 효능이 좋고, 독성이 낮고, 합성 특성이 높아야 합니다.
——후팅준
기존의 신약 개발 과정에서는 신약 혁신에 긴 R&D 주기, 높은 투자, 높은 위험 등의 문제가 있었습니다. 선도 화합물의 발견과 최적화는 약물 발견 과정 전체에서 가장 어려운 단계로, 화합물의 방대한 화학적 공간(10의 60승에 달할 수 있음)을 극복해야 합니다. 게다가, 리드 화합물의 선별, 최적화 및 평가 과정은 매우 복잡합니다.
AI는 심층 학습과 빅데이터 분석을 통해 대규모 생물정보학 데이터를 효율적으로 처리하고 해석하고, 방대한 데이터 세트에 숨겨진 패턴과 연관성을 발견하고, 잠재적인 약물 표적을 식별하는 정확도를 높이고, 약물 스크리닝 및 설계 프로세스를 가속화할 수 있습니다.
AI 기반 신약개발 분야를 목표로,후팅쥔 교수와 그의 팀은 컴퓨터 지원 약물 설계의 핵심 문제에 대한 최첨단 학제간 연구를 수행해 왔습니다.그리고 다음과 같은 일련의 귀중한 성과를 달성했습니다.
* 분자 도킹 및 가상 스크리닝 분야에서 그래프 표현 학습, IGN 및 딥 러닝을 기반으로 한 고처리량 분자 도킹 프레임워크를 기반으로 단백질-소분자 상호작용에 대한 새로운 스코어링 방법을 제안했습니다. 카르마독 기다리다.
* 지능형 분자 생성 및 최적화 측면에서 우리는 리간드 기반 다중 제약 분자 생성 방법인 MCMG와 위상 표면 및 기하학적 구조에 기반한 3D 분자 생성 방법인 SurfGen을 제안했습니다.
*분자적 약물성 및 안전성 평가 측면에서 다중 그래프 주의 모델과 약물성 예측 소프트웨어 시스템 ADMETlab2.0을 기반으로 한 독성 예측 방법인 MGA를 제안했습니다.
또한, 후팅쥔 교수 연구팀은 하부구조 마스킹을 기반으로 한 AI 모델 해석성 방법(SME)을 개발하여 AI 모델의 해석성 문제에 대한 해결책을 제시했습니다.
AI가 약물 개발에 갖는 엄청난 가치가 점점 더 두드러지고 있지만, 아직은 새로운 연구 분야이기 때문에 실제 구현에는 여전히 그에 상응하는 과제가 있을 수 있으며, 이러한 과제는 앞으로 핵심 연구 방향이 될 것입니다.
이와 관련하여 후팅쥔 교수는 다음과 같이 말했다.AI 기반 속성 예측 방법의 예측 능력, 가상 스크리닝에서 AI 기반 스코어링 기능의 예측 능력, 주요 약물 가능성 매개변수 및 독성 종료 지점의 예측 정확도를 효과적으로 개선하는 방법은 앞으로 AI 지원 약물 발견 분야에서 집중해야 할 방향이자 과제가 될 것입니다.
참고문헌:
https://mp.weixin.qq.com/s/cxpbeGmrHULcWsbVbvQmJA