천연 의약품의 활성 성분을 완전히 탐색하기 위해 중남대학교의 Liu Shao 교수 팀은 IMN4NPD 플랫폼을 구축했습니다.

1806년, 23세의 독일 약사 제르튀르너가 아편 양귀비에서 최초로 단량체 모르핀을 분리해내면서 현대 천연 약물 화학 연구의 시작을 알렸습니다. 이를 바탕으로 독일의 화학자 프리드리히 뵐러는 1828년에 요소의 인공 합성에 성공했고, 이를 통해 유기화학이라는 학문이 공식적으로 탄생했습니다. 인류가 생리활성 천연물(NP)에 대한 끊임없는 연구를 통해 유기화학이라는 학문이 탄생했다고 할 수 있습니다.
소위 생리활성 천연물(NP)은 실제로 자연에서 오랜 시간에 걸쳐 진화해 온 물질적 실체이며 생리활성 물질과 실용 약물의 연구 및 개발을 위한 중요한 원천입니다. 약물 개발 과정에서 NP는 암과 감염성 질환에 대한 치료제 혁신에 크게 기여했습니다. 그러나 현재까지 NP는 스크리닝, 분리, 특성화 및 최적화 측면에서 여전히 기술적 장벽에 직면해 있습니다. 그 중에서도 복잡한 혼합물에서 NP를 분리하는 것은 가장 심각한 과제 중 하나이며, 이는 약물 연구의 주요 병목 현상이 되기도 합니다.
이 병목 현상을 해결하려면 중남대학 샹야병원 약학과의 류샤오 교수 팀은 천연물 의약품의 약리학적 구성 요소를 포괄적으로 탐색할 수 있는 NP 복제 해제를 위한 통합 분자 네트워킹 워크플로(IMN4NPD)를 혁신적으로 구축했습니다.이는 분자 네트워크에서 광범위한 클러스터의 중복 제거를 가속화할 뿐만 아니라 기존 연구 방법에서 종종 간과되는 자체 루프와 페어링된 노드에 대한 주석도 제공합니다. 관련 연구 결과는 최근 미국화학회(ACS)의 저널인 분석화학(Analytical Chemistry)에 게재되었습니다.

서류 주소:
https://doi.org/10.1021/acs.analchem.3c04746
공식 계정을 팔로우하고 "Natural Medicine"에 답글을 달면 전체 PDF를 받을 수 있습니다.
IMN4NPD: 스펙트럼 유사성을 기반으로 분자 네트워크를 구동하기 위해 여러 계산 도구 통합
IMN4NPD의 핵심 작동 원리는 스펙트럼 유사성에 의해 구동되는 분자 네트워킹입니다.이 솔루션은 NPClassifier, molDiscovery 및 t-SNE 네트워크와 같은 여러 계산 도구를 통합하고 조정하여 연구자들이 특정 화합물 클래스를 빠르게 식별하는 데 도움이 되며, 동시에 분자 네트워크 노드에 대한 주석도 간소화합니다.
* NPClassifier: 딥 신경망 기반 자연물 구조 분류 도구
* molDiscovery: 질량 분석 데이터베이스 검색 방법
일반적으로 IMN4NPD 워크플로는 3단계로 나눌 수 있습니다.
첫 번째 단계,원시 LC-MS 데이터는 분자 네트워크 또는 기능 기반 분자 네트워크를 생성하기 위해 사전 처리되었습니다. 이후, 심층 신경망 기반 NP 분류 도구인 SIRIUS는 NPClassifier를 통해 복합 클래스를 체계적으로 분류합니다.
2단계:본 연구에서는 GNPS(Global Natural Product Social Molecular Networking)를 통해 MS/MS 스펙트럼 데이터베이스를 기반으로 중복제거 실험을 수행한 후, molDiscovery를 통해 컴퓨터 데이터베이스 기반 중복제거를 수행했습니다.
3단계.연구진은 MS/MS 스펙트럼 특성의 유사성을 사용하여 t-SNE 네트워크를 생성하고 각 노드에서 화합물을 화학적으로 분류하여 자체 순환 네트워크에 분포된 특정 화합물 종류를 정확하게 찾아 복제했습니다.

사용성 평가: 분자 네트워크에서 특정 화합물 클러스터를 빠르게 식별하기 위한 이소퀴놀린 유사체 탐색
이 연구에서는 IMN4NPD 워크플로의 성능과 장점을 평가하기 위해 연꽃 씨앗 핵심의 에탄올 추출물을 재분석했습니다. 연꽃 씨앗 핵은 연꽃 꼬투리의 배아 부분입니다. 디벤질이소퀴놀린, 모노벤질이소퀴놀린, 아포르핀 등 다양한 알칼로이드가 풍부한 전통 중국 약용 식물입니다. 불면증, 정자과다증, 심박수 장애, 고혈압 등의 증상을 치료하는 데 사용할 수 있습니다.
이 연구는 실험적 MS/MS 스펙트럼 데이터베이스를 기반으로 분자 네트워크의 개별 노드를 화학적으로 분류하여 분자 네트워크에서 특정 화합물 클러스터를 빠르게 식별하고 새로운 이소퀴놀린 유사체를 탐색했습니다. 연구진은 분자 네트워크에서 각 특징 매핑의 화학적 분류 결과를 검토한 결과, 이소퀴놀린 유사체에 해당하는 특정 화합물 클러스터를 쉽게 찾을 수 있다는 것을 발견했습니다. 동시에, 이소퀴놀린 화합물은 분자 네트워크에서 주로 4개의 클러스터로 분포되었습니다.

또한 이 연구에서는 GNPS 데이터베이스와 같은 실험적 MS/MS 스펙트럼 데이터베이스를 사용하여 대규모 클러스터의 제한된 수의 특징만 성공적으로 재현할 수 있다는 사실을 발견했습니다. 그러므로,이 연구에서는 구조적 데이터베이스 매칭을 위해 최첨단 실리코 조각 알고리즘인 molDiscovery를 사용했습니다.실험 및 실리코 MS/MS 스펙트럼 데이터베이스를 기반으로 하는 이러한 중복 제거 접근 방식은 특히 대규모 클러스터에서 분자 네트워크의 물질 구조에 시기적절하고 편리한 방식으로 주석을 달 수 있는 능력을 향상시킵니다.
예를 들어 모노벤질이소퀴놀린 알칼로이드의 클러스터 A를 살펴보면, 클러스터는 36개의 노드로 구성되어 있는데, 그 중 7개의 노드만 MS 데이터베이스에 주석이 달려 있고, 35개의 노드는 구조 데이터베이스에 주석이 달려 있으며, 8개의 노드는 MS와 구조 데이터베이스 모두에 주석이 달려 있습니다. m/z 344.1855에 노드가 있다는 점은 주목할 만합니다.아르 자형=7.6329)는 MS 구조 데이터베이스에 의해 완전히 주석이 달렸으며, 후보 구조가 3'-O-메틸-4'-메톡시-N-메틸코클라우린(위에 표시된 대로)이라는 것을 나타냈습니다.
추가 분석을 통해 노드가 NH를 잃었습니다.3CH3. CH3OH와 H2O에 이어 고리 단편화, α 단편화, β 단편화가 일어나 각각 m/z 107.0496, 137.0597, 151.0757, 175.0750, 205.1098, 235.0752, 267.1017, 299.1271, 312.1590에서 단편 이온이 생성됩니다.
구조 데이터베이스에서 식별됨, m/z 448.1963(t아르 자형 = 1.6287)은 N-메틸노르코클라우린 7-O-글루코사이드입니다. 또 다른 m/z 312.1593 (t아르 자형 = 7.3621) 노드는 하나의 모노벤질이소퀴놀린을 포함한 4개의 후보 구조를 보여줍니다. 그리고 m/z 344.1855 노드(t아르 자형=7.6329)는 m/z 190.0862(C)의 노드와 비교됩니다.11시간12아니요2)는 이것이 메틸렌디옥시기임을 나타냅니다.
연구 결과: 심층 신경망을 기반으로 t-SNE 네트워크 관점에서 세 가지 연구 알고리즘 비교
MolNetEnhancer와 비교했을 때,IMN4NPD는 딥 신경망 기반 NP 분류 도구인 NPClassifier를 사용하여 분자 네트워크의 각 기능을 개별적으로 분류합니다.분자의 전체 클러스터나 계열이 아닙니다. 이 연구에서는 개선된 코사인 유사도를 사용하여 유사도 행렬을 계산하고 이를 사용하여 t-SNE 네트워크를 생성했습니다. 동시에 이 연구에서는 NPClassifier를 통해 각 노드를 MS/MS 스펙트럼 데이터에 따라 분류하고 이러한 분류를 t-SNE 네트워크에 매핑했습니다.
전통적인 분자 네트워크 관점에서 이소퀴놀린은 일반적으로 세 개의 큰 클러스터(클러스터 AC)와 하나의 작은 클러스터(클러스터 D)로 구성됩니다. t-SNE 네트워크의 관점에서 볼 때, 이소퀴놀린의 4개 클러스터 노드가 밀접하게 그룹화되어 서로 다른 클러스터 영역을 형성한다는 것이 분명합니다. 하지만 t-SNE 네트워크의 관점에서 볼 때, 분자 네트워크의 클러스터 A는 두 개의 더 작은 클러스터로 더 나눌 수 있다는 점에 주목할 필요가 있습니다. 또한,t-SNE는 이소퀴놀린 노드를 효과적으로 찾아내어 관련 노드의 구조 분석 작업을 크게 줄일 수 있습니다.

변형 코사인 유사도 방법은 다양한 화학적 변형을 거친 화합물의 스펙트럼을 다룰 때 한계가 있습니다. 본 연구에서는 또한 Spec2Vec 및 MS2DeepScore와 같은 유사성 알고리즘을 선택하여 이를 사용하여 t-SNE 네트워크를 생성했습니다. Spec2Vec에 따르면, 이소퀴놀린은 여전히 분자 네트워크에서 4개의 주요 클러스터를 형성합니다.
그러나 MS2DeepScore에 따르면, 이소퀴놀린의 대형 클러스터 A와 B의 노드는 서로 밀접하게 분포되어 여러 개의 클러스터링 영역을 형성하는 반면, 대형 클러스터 C의 노드는 그래프 전체에 흩어져 있어 후속 분석에 어려움을 겪습니다.

흥미로운 현상은 m/z 296.1646 노드(t아르 자형 = 11.54) 수정된 코사인 유사도와 MS2DeepScore 유사도의 t-SNE 다이어그램에서는 이소퀴놀린과 관련된 노드의 클러스터링 영역에서 멀리 떨어져 있지만, Spec2Vec 스펙트럼 유사도에 기반한 t-SNE 다이어그램에서는 노드가 큰 클러스터 A의 클러스터링 영역에 인접해 있습니다. 이러한 유형의 자가 교환 노드는 이소퀴놀린 화합물의 한 종류를 나타낼 수 있으며, 추가 비교를 통해 해당 노드가 아포르핀 알칼로이드임이 확인되었습니다.
그러므로,화합물의 화학적 분류와 t-SNE 네트워크는 각각 특성에 대한 다양한 정보를 제공할 수 있으며, 이를 통해 어느 정도까지 거짓 음성 발생을 줄일 수 있습니다.
또한 Spec2Vec 스펙트럼 유사도의 t-SNE 네트워크를 기반으로 m/z 298.1438(t아르 자형 = 7.02) 및 m/z 298.1438(t아르 자형 = 7.60) 분자 네트워크의 자기교환 노드와 쌍 노드인 두 개의 노드. 이소퀴놀린 화합물로 분류되지는 않았지만 이소퀴놀린 클러스터 A와 구조적으로 유사합니다. 추가 분석 결과 m/z 298.1438(t아르 자형 = 7.02)는 알려진 아포르핀 알칼로이드, 노르누시페리딘, m/z 298.1438(t)입니다.아르 자형 = 7.60) 또한 누시페린과 노르누시페리딘과 유사한 아포르핀 알칼로이드를 나타냈습니다.
위의 세 가지 노드에 대한 연구를 통해 이들은 모두 모노벤질이소퀴놀린 알칼로이드와 다른 아포르핀 알칼로이드에 속한다는 것을 발견했습니다. 수정된 코사인 유사도와 MS2DeepScore 유사도를 사용하면 이 세 노드는 모노벤질이소퀴놀린 알칼로이드와 관련된 노드의 클러스터링 영역인 클러스터 A에서 멀리 떨어져 있지만, Spec2Vec에 따르면 이 세 노드는 클러스터 A 근처에서 찾을 수 있습니다.
이러한 차이는 Spec2Vec 스펙트럼 유사성이 이소퀴놀린 화합물의 유사한 구조를 정확하게 포착하는 데 있어 뛰어난 능력을 가지고 있음을 보여줍니다.
천연물 연구에 인공지능을 적용하는 것이 가속화되고 있습니다.
최근 몇 년 동안 다양한 현대 기술의 급속한 발전에 힘입어 LC-MS/MS와 NMR 기술을 기반으로 한 새로운 전략과 방법이 천연 생물 활성 분자 연구에 많이 등장했으며, 생물정보학, 대사체학, 컴퓨터 과학과 같은 학제적 기술적 수단이 통합되었습니다. 특히, 인공지능과 머신러닝 알고리즘이 천연물 연구에 통합되기 시작하면서 연구자들에게 새로운 차원의 생산성 혁명이 일어나고 있습니다.
초기에는 AI의 적용이 유기 분자의 디지털화와 차원 축소 기술을 사용한 NP 화학 공간의 매핑에 초점을 맞췄습니다. 이후 연구자들은 NP의 생물학적 기능을 예측하기 위해 머신 러닝 이진 분류기를 개발했습니다. 오늘날 신경망 아키텍처는 게놈 마이닝과 분자 설계에 사용되기 시작했으며, 딥 러닝 알고리즘은 약물 발견과 분자 정보학 분야에서 점점 더 인기를 얻고 있습니다.
따라서 최근 몇 년 동안 산업, 학계, 연구계 모든 분야에서 관련 연구의 속도가 가속화되었음을 알 수 있습니다. 2022년에 광저우 국가 슈퍼컴퓨팅 센터는 중산대학, 스타제약기술, 매사추세츠 공과대학, 조지아 공과대학과 손을 잡고 Tianhe-2의 강력한 컴퓨팅 및 저장 기능을 기반으로 슈퍼컴퓨터를 구축할 예정입니다.딥러닝 기반의 생물역합성 경로 탐색 도구인 BioNavi-NP가 제안되었습니다.
기업계에서도 천연물에 대한 연구가 가속화되고 있습니다. 2023년에 Tasly Pharmaceutical Group과 Huawei Cloud는 협력 계약을 체결했습니다. 양측은 천연물 등에 대한 최신 연구 데이터를 결합할 예정이다.전통 중의학 분야의 수직적 거대 모델을 공동으로 구축합니다.
그러나 천연물 데이터베이스는 여전히 과학 연구 과정에서 큰 과제로 남아 있습니다. 현재 세계적으로 널리 사용되는 천연물 데이터 저장소로는 MIBiG(Minimum Information of Biosynthetic Gene Clusters), NP Map(Natural Products Map), GNPS(Global Natural Products Molecular Network), NP-MRD(Natural Products Magnetic Resonance Database) 등이 있다. 그러나 이러한 데이터베이스는 적용 범위가 좁고 데이터 오류 문제가 많아 천연물 신약 발굴 분야에서 인공지능의 발전을 저해하고 있다.
최근 들어 중국 과학자 투유유, 일본 과학자 오무라 사토시, 아일랜드 과학자 윌리엄 C. 캠벨을 포함한 많은 연구자들이 천연물 전합성 분야의 업적을 인정받아 노벨 화학상 후보로 지명되었습니다. 천연물의 중요성이 계속해서 부각됨에 따라, 천연물 연구에 인공지능을 통합하는 추세가 가속화될 것이라는 점에는 의심의 여지가 없습니다.