HyperAI초신경

러시아 연구팀은 Nature에 게재한 논문에서 기계 학습을 사용하여 수조 개의 질량 분석 데이터를 검색하고 알려지지 않은 화학 반응을 발견했습니다.

特色图像

질량 분석법(MS)은 현대 화학 연구의 핵심 기술 중 하나입니다. 분자 이온의 질량 대 전하 비율(m/z)을 측정함으로써, 질량 분석법은 화합물의 분자식, 구조, 심지어 반응 메커니즘에 대한 중요한 정보를 제공할 수 있습니다. 고분해능 질량 분석법(HRMS)의 등장으로 분석 정확도가 백만 분의 일(ppm) 수준으로 높아져 유기 합성, 금속 촉매, 약물 개발 및 기타 분야에서 "황금 표준"이 되었습니다. 그러나 장비의 자동화가 증가함에 따라 실험실에서 매일 생성하는 질량 분석 데이터의 양이 테라바이트(TB) 수준을 넘어섰고, 이로 인해 컴퓨터에 수 TB 규모의 정보가 쌓이게 되었습니다. 하지만 현재는실험 및 MS 데이터는 수동 분석에 크게 의존하며, 인적 요인은 데이터 분석의 해석 범위에 영향을 미칠 수 있습니다.이로 인해 실험이 심각하게 제한됩니다.

이러한 과제를 해결하기 위해 러시아 과학 아카데미와 다른 기관의 연구자들은 혁신적인 머신 러닝(ML) 기반 검색 엔진인 MEDUSA Search를 도입했습니다.이온 동위원소 분포는 TB 수준까지 다중 성분 고해상도 질량 스펙트럼 데이터베이스에서 검색할 수 있습니다.이 접근 방식은 두 개의 협업적 머신 러닝 모델로 강화된 동위 원소 중심 검색 알고리즘을 활용하여 알려지지 않은 화학 반응을 발견하는 데 도움을 줍니다. 이러한 접근 방식은 기존 데이터의 엄격한 검토를 통해 화학적 가설에 대한 유효한 뒷받침을 제공하는 동시에 추가 실험의 필요성을 줄이는 데 도움이 됩니다. 더욱이 기준 접근 방식을 확장하면 이 모델은 자동으로 반응 가설을 생성하고 새로운 화학적 변형을 밝혀낼 수 있습니다. 안에,미조로키-헥 반응에서의 헤테로사이클-비닐 커플링 과정은 실험에서 두드러졌으며, 이는 엔진이 복잡한 화학 현상을 해결하는 능력을 강조했습니다.

"테라 규모 질량 분석 데이터의 머신 러닝 기반 해독을 통한 유기 반응 발견"이라는 제목의 관련 연구가 Nature Communications에 게재되었습니다.

연구 하이라이트
* 알려지지 않은 반응의 발굴: 새로운 실험에 의존하는 대신, 기존 데이터를 사용하여 알려지지 않은 화학 반응을 발굴함으로써 실험 비용과 자원 소비를 줄입니다. 

* 효율적인 검색 알고리즘: 머신 러닝 모델과 결합된 고유한 동위원소 분포 검색 알고리즘을 통해 대규모 질량 분석 데이터에서 이온을 정확하게 검색하고 잘못된 판단을 줄일 수 있습니다.

* 화학적 인지 확장: 미조로키-헥 반응에서의 헤테로고리-비닐 커플링 과정과 같은 새로운 반응 경로와 생성물을 발견하고 화학 반응에 대한 이해를 심화합니다.

서류 주소: 

https://go.hyper.ai/ak7bN

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s

데이터 세트: 반응성 이온의 존재를 확인하는 20,000개 이상의 질량 분석 이미지

대부분의 질량 분석 신호는 전문적인 분석이 부족하기 때문에 연구실에서는 지난 몇 년 동안 엄청난 양의 데이터를 축적하고 저장했으며, 이 실험에 사용된 데이터는 모두 여기에서 나왔습니다. 이러한 질량 분석 데이터는 광범위한 화학적 변환 연구를 포괄합니다.총 데이터 용량은 8TB를 넘으며, 20,000개 이상의 질량 스펙트럼이 포함됩니다.다양한 분해능의 다중 성분 고해상도 질량 분석 데이터가 저장되어 광범위한 응용 분야에서 대상 이온의 존재를 확인할 수 있습니다.

MEDUSA 검색 반응 발견 프로세스 동안 생성된 이온 공식은 전체 테라스케일 HRMS 데이터베이스에서 검색되어 새로운 반응 경로와 생성물을 찾고, 데이터는 시각화됩니다.

데이터 세트는 t-SNE 차원 축소 기술을 사용하여 시각화되었습니다. 보관된 데이터 세트의 높은 다양성을 보여주기 위해 연구진은 두 개의 t-SNE 플롯을 만들었습니다.수집된 분자는 PubChem 데이터베이스에서 무작위로 샘플링되었고, 질량 분석법으로 화합물을 등록했습니다.분석 질량 스펙트럼에 등록된 화합물은 화학 공간을 잘 포괄합니다. 각 점은 스펙트럼을 나타내며, 그래프에서 유사한 질량 스펙트럼은 서로 가깝고, 서로 다른 작업자가 서로 비교하기 위해 기록한 다른 스펙트럼이 있습니다. 실험 결과 다음과 같은 사실이 밝혀졌습니다.질량 스펙트럼에 나타나는 화합물은 화학 공간에 널리 분포되어 있으며, 다양한 연구자들이 기록한 질량 스펙트럼은 매우 다양합니다.아래와 같이.

Morgan 지문으로 인코딩된 화학 구조의 t-분산 확률적 이웃 임베딩(t-SNE) 플롯
이 연구에 사용된 보관된 MS 데이터의 t-분산 확률적 이웃 임베딩(t-SNE) 플롯입니다. 각 점은 고유한 질량 스펙트럼을 나타냅니다. 다양한 색상은 기록 질량 분석기 운영자를 나타냅니다(문자로 코드화됨)

이 연구를 통해 생성된 다양한 데이터는 Figshare에 저장되어 있습니다.여기에는 9GB 질량 분석 ZIP 아카이브가 포함되어 있습니다.언급된 모든 발견 제품이 다루어지며, 검색 엔진 기능을 테스트하는 데 사용할 수 있는 추가 반응 질량 분석 데이터도 포함됩니다. 검색 결과에서 결과가 나오지 않은 일부 데이터는 기밀 유지나 지적 재산권 문제로 인해 공개적으로 공유할 수 없습니다.
* figshare는 클라우드 컴퓨팅 기술을 기반으로 한 온라인 데이터 저장소로, 연구자들이 데이터, 데이터세트, 이미지, 비디오, 포스터, 코드 등 연구 결과를 저장하고 공유할 수 있습니다.

HRMS 고분해능 질량 분석 데이터 세트:

https://go.hyper.ai/nexNc

모델 아키텍처: 동위원소 분포 검색을 기반으로 알려지지 않은 화학 반응 발견

MEDUSA Search는 방대한 질량 분석 데이터에서 알려지지 않은 화학 반응을 발견하는 데 사용할 수 있는 머신 러닝 기반 질량 분석 데이터 분석 엔진입니다.

구체적으로 MEDUSA Search에서 개발된 검색 프로세스는 5단계로 구성됩니다.

첫 번째,MEDUSA 검색은 검색하려는 이온의 분자식과 전하를 입력으로 받습니다.이러한 공식이나 전하량은 가설 생성 방식을 사용하여 반응 시스템에서 유도할 수도 있고, 수동으로 정의할 수도 있습니다(아래 그림 A 참조). 그러면 검색 엔진은 아래 그림 B에 표시된 대로 입력 이온의 가장 풍부한 두 개의 동위 원소 피크를 포함하는 모든 스펙트럼 파일을 검색합니다. 동위 원소 피크는 질량 대 전하 비율 m/z로 표현됩니다. 이러한 스펙트럼 파일을 후보라고 하며, 연구자들은 아래 그림 C1에 표시된 것처럼 스펙트럼 파일에 대한 코사인 거리 임계값 계산도 수행했습니다. 다음으로, 모든 후보 질량 스펙트럼은 아래 그림 C2에 표시된 대로 입력 공식에 따라 단일 스펙트럼 내에서 동위원소 분포를 검색하는 알고리즘을 거칩니다.

검색 엔진 흐름도

검색하기 전에 연구자는반응 시스템에 대한 사전 지식을 기반으로 가상 반응 경로 목록을 생성합니다.(그림 A에 표시된 대로). 이 시스템은 끊어지기 쉬운 결합과 해당 조각의 재결합을 중심으로 설계되었습니다. 화학식과 전하에 대한 정보를 입력하면 이온의 이론적인 "동위원소 패턴"을 계산할 수 있습니다. 가장 풍부한 두 개의 동위 원소 피크에 대한 역색인을 검색합니다(그림 B). 이러한 피크를 포함하는 질량 스펙트럼을 후보라고 합니다. 대략적인 스펙트럼 검색 후, 각 후보 스펙트럼에서 쿼리 이온의 동위 원소 분포를 검색합니다.3단계로 구성되어 있습니다.

초기 이온 존재 임계값 추정치:스펙트럼 내에서 동위 원소 분포 검색 알고리즘에 의해 반환된 코사인 거리는 이론적인 동위 원소 분포와 일치하는 동위 원소 분포 사이의 유사성을 측정하는 데 사용됩니다. 스펙트럼에서 이온의 존재 또는 부재를 자동으로 결정하는 것은 추정된 최대 코사인 거리(즉, 이온 존재 임계값)에 따라 달라집니다. 머신 러닝 회귀 모델(그림 C1)을 기반으로, 이온 존재 임계값은 입력 이온 공식을 사용하여 결정됩니다.

*  스펙트럼 내에서 동위 원소 분포 검색:분광 내 동위 원소 분포 검색 알고리즘(그림 C2)은 실험 후보 질량 스펙트럼의 피크를 이론적 동위 원소 분포의 피크와 일치시킵니다. 각 단계마다 코사인 거리를 계산하여 가장 유사한 피크를 선택합니다. 피크가 발견되지 않으면 노이즈의 중간값과 동일한 강도를 가진 피크로 대체됩니다. 최종 코사인 거리가 1단계에서 추정한 이온 존재 임계값보다 작으면(그림 C1 참조), 이온이 발견된 것으로 간주됩니다.

거짓 양성 일치 필터링:추가적인 머신 러닝 분류기(그림 C3)는 이웃 피크에 대한 정보를 사용하여 거짓 양성 이온의 존재를 감지하는 데 사용되었습니다. 이 문제는 일반적으로 다른 분포의 일부인 분포를 검색하는 것으로 나타납니다. 가장 두드러진 예 중 하나는 M+1로 시작하는데, M도 존재합니다.

실험 결론: 헤테로고리-비닐 커플링 실험은 모델 감지 기능을 강조합니다.

생성된 520개 이온을 Terascale HRMS 데이터베이스 전체에서 검색했으며, 총 계산 시간은 3~4일(이온당 8~11분)이었습니다.  실험 결과에 따르면 MEDUSA Search는 다양한 동위원소 분포 패턴을 감지합니다.

촉매 전환 생성물의 형성은 해당 반응 메커니즘과 밀접한 관련이 있습니다.이전에는 다양한 NHC 리간드와 할로겐 치환기를 촉매 성분으로 갖는 Pd/NHC 착물을 사용하여 여러 가지 미조로키-헥 반응과 교차 결합 반응(소노가시라, 스즈키, 부흐발트-하르트비히 등)이 수행되었습니다. 반응 혼합물의 ESI-MS 분광법을 통한 반응 메커니즘 연구 중 결합 생성물 [NHC-H]⁺, [NHC-Ph]⁺, [NHC-O]⁺ 및 [NHC-N]⁺이 발견되었습니다. 이러한 관찰을 바탕으로,촉매 반응 조건에서 M/NHC 복합체의 진화에 있어서 R-NHC 커플링과 M-NHC 결합 절단의 핵심 역할이 밝혀졌습니다.촉매 활성 분자 M/NHC 촉매와 "NHC가 없는" 칵테일 유형 촉매의 형성은 H-NHC 염 및 O-NHC 커플링 형성을 포함한 CC 커플링 반응의 수의 관점에서 설명됩니다.

소노가시라 반응에서는 이전에 알려지지 않았던 에티닐-NHC 커플링 생성물이 분리되었고, 가능한 반응 경로가 설명되었습니다. 에티닐-NHC 커플링 생성물은 반응성이 매우 높아 다양한 변형이 일어날 수 있습니다. 제품의 수소화된 유도체는 설명된 방법을 사용하여 분석되었습니다.Sonogashira 반응 혼합물의 ESI-MS 스펙트럼은 [NHC-(CH₂)₂-Ph]⁺ 생성물의 존재를 보여주었습니다.아래와 같이. 이 과정은 전이수소화 반응을 통해 일어나는 것으로 추정된다.

MEDUSA Search는 잘 알려진 H-NHC 및 Ph-NHC 이온과 Pd/NHC로 촉매되는 Sonogashira 반응 혼합물에서 새로 발견된 [NHC-에티닐]⁺ 이온을 등록합니다. 동위원소 기반 검색 프로세스를 통해 이전에 알려지지 않은 에틸-NHC 생성물을 감지할 수 있습니다.

Pd/NHC 복합체 [BIMePh]⁺ [BIMePdI₃]⁻의 촉매 작용 하에서,p-메톡시요오도벤젠과 부틸 아크릴레이트 사이의 Mizoroki-Heck 반응 혼합물에 대한 질량 분석 결과 [BIMe (CH)₂COOBu]⁺가 형성되었음을 확인했습니다.분자식은 초고분해능 질량 분석법을 통해 확인되었습니다. [IPrCHC(Ph)COOBu]⁺ 형성과 관련된 실험은 수은에 의한 균일 촉매와 이질 촉매를 구별하는 데 사용되었습니다. 반응종에 대한 수은의 간섭을 배제하고 다른 조건은 원래 실험과 동일하게 유지했습니다. 분자식은 초고분해능 질량 분석법을 통해 확인되었고, 화학 구조는 MS/MS 실험을 통해 검증되었습니다.

ESI-HRMS는 [BIMe(CH)₂COOBu]⁺ 이온의 형성을 확인했습니다.
ESI-HRMS는 [IPrCHC(Ph)COOBu]⁺ 이온의 형성을 확인했습니다.
[IPrCHC(Ph)COOBu]⁺ 이온의 MS/MS 스펙트럼

5가지 다른 NHC 리간드를 사용하여 실험을 수행했습니다. Mizoroki-Heck 반응에서 Pd/NHC 변환 중 비닐-NHC 결합의 가능성을 테스트했습니다. 연구된 모든 사례에서 비닐-NHC 생성물이 복합체의 리간드와 관계없이 발견되었으며, 모든 생성물은 최소한의 오류로 정의되었습니다. (BIMe)PdI₂Py, (SIMes)PdCl(allyl), 및 (PIPr)PdCl(allyl)과 같은 연구된 반응 혼합물의 경우,비닐-NHC 외에도 에틸-NHC도 검출되었습니다.(IMes)PdCl(allyl) 및 (SIPr)PdCl(allyl) 착물의 m/z 오차는 0.3ppm 미만으로 매우 낮고, 오차는 1ppm 미만입니다. 모든 MS 실험에서, 질량 스펙트럼을 기록하는 동안 전환이 발생하지 않도록 구성이 설정되었습니다. 문제의 비닐-NHC 결합 프로세스에 대해 압력 샘플 주입 ESI-MS 반응 모니터링도 수행하여 다양한 반응 데이터 수집 모드에서 이온을 관찰할 수 있는지 확인했습니다.

이 강력한 머신 러닝 기반 반응 발견 계산 엔진은 다양한 구성의 이온을 사용할 수 있는 것으로 입증되었습니다.모든 MS 기기에서 동위원소 분포를 관찰하기에 충분한 분해능으로 이온 검색을 수행할 수 있습니다.개발된 시스템을 다른 계산 기술(예: 구조식이나 펩타이드 서열에 따른 이온 조각 예측 알고리즘, 다양한 부가물 계산기)과 결합하면 포괄적 스크리닝을 위한 강력한 분석 도구가 될 수 있으며, 이는 다양한 과학 분야에서 발견을 가속화하는 데 필수적입니다.

또한,이 방법은 또한 "과거에 대한 실험"이라는 연구 개념을 실현합니다.기존 데이터의 가치를 최대한 활용하고, 새로운 반응 경로와 생성물을 발견하고, 연구 자원을 절약하고, 화학 연구에 대한 새로운 아이디어와 방법을 제공하고, 유기화학 분야의 발전을 촉진합니다. 실제 적용 측면에서 볼 때, 이는 제약 회사, 재료 연구개발 회사 등이 새로운 반응 경로와 제품을 보다 신속하게 찾고, 연구개발 비용을 절감하고, 연구개발 효율성을 향상시키며, 화학 연구를 위한 강력한 분석 도구를 제공하는 데 도움이 될 수 있습니다.

질량 분석 데이터의 자동 분석이 임상 적용에 들어갑니다.

과학 연구와 산업 생산 분야에서 질량 분석 기술이 지속적으로 발전함에 따라 자동화 기술은 임상적 응용을 향해 나아가기 시작했습니다. 정밀 진단 기술의 중요한 구성 요소인 임상 질량 분석법은 샘플 수집, 처리, 분리부터 분석까지 완전한 자동화를 달성할 수 있습니다. 미국이 최근 발간한 글로벌 IVD 산업 보고서(Global IVD Industry Report) 17판에 따르면, 글로벌 임상 질량 분석 산업의 시장 규모는 2024년에 9억 3,000만 달러에 이를 것으로 전망됩니다.2029년에는 14억 3,500만 달러에 이를 것으로 예상됩니다. 2024년부터 2029년까지 임상 질량 분석 시장은 연평균 9%의 비율로 성장할 것으로 예상되며, 핵산 검사에 이어 IVD 분야에서 가장 빠르게 성장하는 시장 부문이 될 것입니다.
* IVD(in vitro diagnostic products)는 의료기기, 체외진단시약 및 의약품을 말합니다.

중국 시장을 살펴보면,임상 질량 분석 산업은 오랫동안 급속한 발전 단계에 접어들었으며, 질량 분석 멀티오믹스, 국산 질량 분석기 및 자동 질량 분석 분야에서 상당한 진전이 있었습니다."2024년 임상질량분석산업 연구보고서"에 따르면, 2024년 7월 31일 기준으로 품질관리제품과 교정제품을 제외하고 총 228개의 국내 임상질량분석제품이 NMPA의 승인을 받았습니다.

승인된 시약 유형 측면에서 볼 때, 중국에서 승인된 국산 임상 질량 분석 기기의 수는 지난 5년 동안 계속해서 증가해 왔으며, 성장률이 둔화될 조짐은 보이지 않습니다. 2024년 7월 31일 기준으로 비타민 검사에 사용되는 시약 51종, 약물 농도 모니터링에 사용되는 시약 46종, 만성 질환 및 호르몬 검사에 사용되는 시약 45종이 승인되었습니다. 2020년부터 2023년까지 각각 10개, 12개, 13개, 16개 모델이 출시될 예정입니다.

승인된 기기 중에는 액체크로마토그래피-질량분석(LC-MS) 기기가 대부분이며, 중국산 LC-MS 기기는 총 33개가 승인되었습니다. 두 번째로 큰 그룹은 국내 매트릭스 보조 레이저 탈착 비행시간형 질량 분석법(MALDI-TOF MS) 장비로, 미생물 검출, 핵산 검출, 펩타이드 검출에 사용하도록 승인된 모델이 총 25개입니다.

* 액체 크로마토그래피-질량 분석법은 액체 크로마토그래피(LC)의 물리적 분리 능력과 질량 분석법(MS)의 질량 분석 능력을 결합한 분석 화학 기술입니다. 

* 매트릭스 보조 레이저 탈착 비행시간 질량 분석법(MALDI-TOF MS)은 최근 몇 년 동안 개발된 새로운 유형의 소프트 이온화 바이오매스 분석법으로, 많은 수의 박테리아와 균류를 식별하는 데 널리 사용되고 있습니다.

현재 중국에서 LC-MS의 임상 적용은 비교적 짧은 기간 동안 이루어졌으며 아직 초기 단계에 있습니다. 아직도 많은 단점이 있습니다. IVD 제조업체, 의료 테스트 실험실, 전문 및 기술 인력, 관리 부서 및 정책과 같은 많은 요소가 임상 질량 분석 검출 기술의 적용에 영향을 미칠 수 있습니다. 하지만 미래를 내다보면 자동화와 지능의 결합이 중요한 개발 방향이 될 것이 틀림없습니다. LC‑MS/MS의 임상적 적용은 계속해서 발전할 것이며, 검출 효율성과 정확성을 개선하는 동시에 의사가 결과를 해석하고 임상적 의사 결정을 지원하는 데 더욱 도움이 될 것입니다.

참고문헌:
1.https://mp.weixin.qq.com/s/27drrM5lwawHRgRMWvHZRQ
2.https://mp.weixin.qq.com/s/pkd2I573on08syPkqdStOQ