HyperAI초신경

체코 과학 아카데미는 2억 개의 분자량 스펙트럼을 포괄하는 DreaMS 모델을 출시하여 세계 최대 규모의 질량 분석 데이터 세트인 GeMS를 구축했습니다.

特色图像

통계에 따르면, 현재 인간이 탐구하는 자연적 소분자 화학 공간은 전체 양의 10% 미만인 반면, 비대상 대사체학 실험에서는 신뢰할 수 있는 주석이 부족하여 질량 스펙트럼의 90% 이상이 "데이터 낭비"가 되었습니다.

분자를 해독하기 위한 이 중요한 싸움에서 핵심 과제는 탠덤 질량 분석법(MS/MS)의 복잡한 언어를 해독하는 것입니다. 현대 화학 분석을 위한 최첨단 도구인 액체 크로마토그래피-탠덤 질량 분석법(LC-MS/MS) 시스템은 액체 크로마토그래피를 통해 분자를 효율적으로 분리한 후, 충돌 유도 해리 기술을 사용하여 조각 이온의 질량 스펙트럼을 생성합니다. 이 과정은 분자를 분해하여 조각 퍼즐을 분석하는 것과 유사합니다.

그러나 기존의 분석 도구는 완전한 분자적 그림을 조각해 내는 데 상당한 한계가 있습니다.심지어 고급 SIRIUS 알고리즘조차도 제한된 스펙트럼 라이브러리와 인공적 규칙에 지나치게 의존합니다.총 80% 이상을 차지하는 미지의 천연 분자를 접할 때, 확인할 라이브러리가 없다는 딜레마에 직면하는 경우가 많습니다. 2023년 Nature Methods에 발표된 한 연구에 따르면, 전 세계 대사체 데이터베이스에서 2% MS/MS 스펙트럼만 성공적으로 주석 처리되었으며, 나머지 98%는 마치 심해의 암초처럼 존재하여 신약 개발 및 질병 진단 연구의 진전을 심각하게 저해하고 있다고 합니다.

이 문제를 해결하기 위해 체코 과학 아카데미 유기화학 및 생화학 연구소 연구팀은 언어 분야에서 GPT 시리즈가 이룬 획기적인 성과를 활용하여 질량 스펙트럼 전용 변환기 개발에 전념하고 있습니다. 연구진은 글로벌 천연물 사회 분자 네트워크(GNPS)에서 7억 개의 MS/MS 스펙트럼을 추출하고, 역사상 가장 큰 질량 분석 데이터 세트인 GeMS를 성공적으로 구축했으며, 1억 1,600만 개의 매개변수를 가진 Transformer 모델 DreaMS를 학습시켰습니다. 이 모델은 인공지능이 분자의 "잘못된 문법"을 처음부터 학습하는 것과 같습니다. 마스크된 스펙트럼 피크와 크로마토그래피 보유 순서를 예측함으로써, 표지되지 않은 질량 스펙트럼에서 숨겨진 구조 패턴을 성공적으로 발견했습니다.생성된 1,024차원 특성화 벡터는 분자 간의 구조적 유사성을 정확하게 반영할 수 있으며, 다양한 질량 분석 조건에서 신호 변동에 대한 강력한 견고성을 보여줍니다.

연구에 따르면정밀하게 조정된 DreaMS는 다양한 질량 분석 주석 작업에서 우수한 성능을 발휘합니다.스펙트럼 유사성, 분자 지문, 화학적 특성, 불소 존재 여부 등을 예측하는 기능이 모두 기존 알고리즘과 최근에 개발된 머신 러닝 모델을 능가합니다.DreaMS는 2억 100만 개의 스펙트럼을 통합하여 박테리아, 식물, 인간 대사산물을 포괄하는 초분자 네트워크를 구축했습니다.이 사이트는 화학 커뮤니티를 위한 "분자 백과사전"을 만들어냈으며, 실시간으로 업데이트가 가능하여 관련 분야의 연구와 응용에 매우 귀중한 자료를 제공합니다.

관련 연구 결과는 "DreaMS를 사용하여 수백만 개의 탠덤 질량 스펙트럼에서 분자 표현의 자기 감독 학습"이라는 제목으로 국제적으로 유명한 저널인 Nature Biotechnology에 게재되었습니다.

서류 주소: 

https://go.hyper.ai/uNbqL

더 많은 AI 프런티어 논문:

https://go.hyper.ai/UuE1o

GeMS 화학 질량 분석 데이터 세트의 다운로드 주소:
https://go.hyper.ai/IC2yw

GeMS 데이터 세트: 7억 개의 스펙트럼을 이용한 질량 스펙트럼 데이터베이스 구축

이 연구의 핵심 데이터 기반은 MassIVE GNPS 저장소에서 심층적으로 수집한 GeMS 데이터 세트로, 그 규모와 품질이 대사체학 분야에서 획기적입니다.

GeMS 화학 질량 분석 데이터 세트의 다운로드 주소:
https://go.hyper.ai/IC2yw

아래 그림과 같이,연구팀은 생물학 및 환경 분야를 망라하는 25만 개의 LC-MS/MS 실험 데이터를 통합하고, 이들로부터 약 7억 개의 MS/MS 스펙트럼을 추출한 후, 엄격한 품질 관리 알고리즘을 통해 이를 GeMS-A, GeMS-B, GeMS-C의 세 가지 하위 집합으로 나누었습니다.그중 GeMS-A는 최고 품질 기준을 충족하는 97% Orbitrap 질량 분석기를 사용하여 주로 스펙트럼을 수집합니다. GeMS-C는 52% Orbitrap과 41% QTOF 스펙트럼을 통합하여 일정한 품질을 보장하는 동시에 데이터 규모를 크게 확장합니다. 이러한 계층적 설계는 고정밀 기기 데이터의 신뢰성을 유지할 뿐만 아니라, 더욱 포괄적인 하위 집합을 통해 더 광범위한 질량 분석 기술 소스를 포괄하여 데이터 세트의 다양성을 보장합니다.

GNPS 저장소에서 GeMS 데이터 세트를 마이닝하기 위한 워크플로

연구팀은 대규모 데이터의 중복 문제를 해결하기 위해 지역 민감 해싱(LSH) 알고리즘을 사용하여 유사한 스펙트럼을 효율적으로 클러스터링하고, 클러스터 내 스펙트럼 수를 제한하여 9개의 변이체를 생성했습니다. 이를 통해 데이터 대표성을 유지하면서 계산 효율을 최적화했습니다. 최종적으로 GeMS 데이터셋은 HDF5 바이너리 포맷으로 저장되었습니다.원시 스펙트럼을 고정 차원의 수치 텐서로 변환합니다.GeMS는 기존 스펙트럼 라이브러리의 규모 병목 현상을 해소합니다. 아래 그림에서 볼 수 있듯이, 데이터 볼륨은 기존 라이브러리보다 몇 자릿수(order)가 더 크고 구조가 고도로 표준화되어 있어 딥 러닝 모델을 위한 전례 없는 학습 자료를 제공합니다. 이러한 데이터 특성 덕분에 GeMS는 비지도/자기지도 학습에 적합한 최초의 초대규모 질량 분석 데이터셋입니다. DreaMS 모델의 사전 학습을 위한 기반을 마련할 뿐만 아니라, 고품질 계층화 및 형식 최적화를 통해 후속 스펙트럼 유사성 분석, 분자 구조 특성 분석 및 기타 작업에 대한 정확성과 폭을 모두 갖춘 데이터 지원을 제공합니다. 이는 제한된 참조 라이브러리에 의존하는 기존 모델에서 방대한 원시 스펙트럼 기반 지능형 분석 패러다임으로 대사체학 연구를 촉진합니다.

GeMS 데이터 세트의 MS/MS 스펙트럼

DreaMS 모델: 자기 감독형 변압기 기반 질량 분석의 새로운 패러다임

GeMS 데이터 세트를 기반으로 하는 DreaMS 모델은 자기 감독 학습을 통해 주석이 없는 MS/MS 스펙트럼에서 분자 표현을 추출하는 것을 목표로 합니다.이 모델은 자연어 처리의 BERT 아키텍처를 활용하고 소분자 질량 분석 분야에서 자기 감독 학습 패러다임을 개척했습니다.핵심 설계에는 두 가지 학습 목표가 포함됩니다. 하나는 스펙트럼에서 30%의 질량 대 전하 비율(m/z)을 강도에 비례하여 무작위로 마스크하고, 마스크된 피크를 재구성하도록 모델을 학습하는 동시에 스펙트럼 수준 정보를 집계하기 위해 "부모 이온 태그"를 도입하는 것입니다(언어 모델의 문장 수준 표현과 유사). 다른 하나는 동일한 LC-MS/MS 실험의 스펙트럼 쌍을 통해 크로마토그래피 용출 순서를 예측하는 방법을 배우고 분자 구조와 피크 용출 규칙 간의 본질적인 관계를 강화하는 것입니다.

모델 아키텍처 측면에서는 아래 그림과 같이,DreaMS는 8개 헤드의 셀프 어텐션 메커니즘을 갖춘 7층 트랜스포머 인코더를 기반으로 하며, 1,024차원 표현 벡터를 생성할 수 있습니다.고해상도 질량 대 전하비 데이터의 경우, 이 모델은 푸리에 특징 전처리 기술을 사용하여 연속적인 질량 값을 사인/코사인 주파수 성분으로 분해하고, 정수 및 부동 소수점 부분의 세부 정보를 포착하며, 피드포워드 네트워크를 통해 원소 구성 예측을 더욱 연관시킵니다. 강도 값은 얕은 네트워크로 처리되어 푸리에 특징과 연결되어 변압기 입력으로 사용됩니다. 또한,DreaMS는 모든 피크 쌍의 푸리에 특징 차이를 셀프 어텐션 헤드에 명시적으로 도입합니다(Graphormer 아키텍처에서 차용).추가적인 라벨링이나 복잡한 계산을 피하고 중립적 손실 관계를 직접 모델링합니다.

DreaMS 모델 아키텍처

이 연구에서는 선형 탐색 기법을 사용하여 훈련 단계에서 습득한 표현의 변화를 평가했습니다.첫째, 학습 과정에서 부모 이온 임베딩 벡터에 기반한 로지스틱 회귀 모델은 MACCS 결합 지문을 점진적으로 예측할 수 있어, 모델이 자기 감독 방식으로 분자 조각 정보를 학습한다는 것을 보여줍니다. 둘째, 어텐션 헤드 분석은 모델이 노이즈가 아닌 분자 구조를 나타내는 특성 피크를 우선시한다는 것을 보여줍니다. 마지막으로, 특성화 공간 클러스터링 결과는 서로 다른 이온화 조건에서의 스펙트럼조차도 분자 구조에 따라 선형적으로 분포될 수 있음을 보여주어 구조적 특징을 포착하는 능력이 검증되었습니다.

DreaMS는 자기 감독 학습을 통해 분자 구조를 생성합니다.

DreaMS 모델 교차 작업 마이그레이션: 단일 분자 분석에서 전체 대사체 상호 연결까지의 질량 분석

DreaMS 모델은 자기 지도 학습 기반 최초의 질량 분석 모델로서, 교차 작업 마이그레이션 성능에서 상당한 이점을 보여주었습니다. 연구팀은 이 모델을 네 가지 핵심 작업에 적용했습니다.

스펙트럼 유사성 분석에서,아래 그림에서 볼 수 있듯이, 이 모델은 먼저 자기 지도 특성화를 통해 제로 샘플 매칭을 달성합니다. 임베딩 공간의 코사인 유사도와 분자 구조 유사도(예: 타니모토 계수) 간의 상관관계는 레이블이 지정된 데이터 학습에 의존하는 지도 학습 알고리즘 MS2DeepScore를 능가합니다. 제로 샘플은 분자 구조의 미묘한 차이에 민감하지 않다는 한계를 고려하여, 참조 스펙트럼, 동일 분자의 양성 샘플, 유사한 질량의 음성 샘플을 포함하는 세 개의 어려운 예제를 비교 및 미세 조정을 위해 설계했습니다. 이를 통해 전구체 질량 편차가 10ppm 이내인 검색 작업에서정밀하게 조정된 DreaMS는 44가지 기존 유사성 측정 항목보다 훨씬 뛰어난 성능을 보입니다.게다가 임베딩 결과는 질량 분석 장비의 차이에 더욱 강력하며, UMAP 분석은 그 표현 공간이 분자 화학 공식과 구조 모티프에 따라 엄격하게 클러스터링된다는 것을 보여줍니다.

10 ppm m/z 차이가 있는 분자 풀에서 모델 검색

분자 지문 예측 과제에서,아래 그림에서 볼 수 있듯이 DreaMS는 화학식 할당이나 조각 트리 생성에 의존하는 기존 방식의 복잡한 프로세스를 혁신합니다. 단일 순방향 패스(forward pass)로 원시 스펙트럼에서 모건 지문을 직접 예측할 수 있습니다. PubChem 데이터베이스 검색 성능은 피크 화학식 주석에 의존하는 딥러닝 모델 MIST와 유사하지만, 중간 단계의 계산 집약적인 단계는 생략되었습니다. 제약 관련 화학적 특성을 예측하기 위해, 이 모델은 리핀스키의 5가지 규칙 매개변수, 베르츠 분자 복잡도 및 기타 지표를 미세 조정을 통해 출력합니다.이 기술은 대규모 약물 스크리닝과 지구 밖 바이오마커 탐색 시나리오에서 모두 현재 최고의 성능을 달성했습니다.

DreaMS는 분자 복잡성 예측에 있어 기존 모델보다 우수한 성능을 보입니다.

불소화 분자를 검출하는 가장 어려운 작업에서,아래 그림에서 볼 수 있듯이 DreaMS는 확률적 예측 모델을 통해 0.91의 정밀도와 0.57의 재현율을 달성합니다.이는 단편화 규칙 조합 검색에 의존하고 정확도가 0.51에 불과한 SIRIUS 알고리즘보다 훨씬 우수합니다.특히, 새로운 구조를 가진 분자를 검출하는 데 강력한 일반화 능력을 보여 불소 관련 약물 개발 및 환경 모니터링을 위한 핵심 도구를 제공합니다.

DreaMS(파란색)와 SIRIUS(분홍색) 비교

아래 그림 ad에서 볼 수 있듯이, 연구팀은 높은 계산 효율성(NVIDIA A100 GPU에서 100만 개의 스펙트럼 임베딩 계산에 단 1시간 소요)을 바탕으로 2억 100만 개의 질량 스펙트럼을 포함하는 DreaMS 그래프를 구축하고, 로컬 민감 해싱 클러스터링을 통해 3,400만 개의 노드로 구성된 3-NN(최근접 이웃) 그래프를 생성했습니다. 67%의 에지 유사도는 0.8보다 높았으며, 99.7% 노드가 단일 연결 구성 요소를 형성합니다. 최단 경로 분석 결과, 알려진 라이브러리 항목과 모든 스펙트럼을 6단계 이내에 연결할 수 있음을 보여줍니다.

팔 건선에 대한 대사체학 연구에서아래 그림 e에서 볼 수 있듯이, 이 지도는 스펙트럼 연결성을 통해 질병과 살균제 피라클로스트로빈 사이의 잠재적 연관성을 보여줍니다. 이 연관성 경로에는 오염된 식품이나 처리된 나무와 같은 환경 노출원이 포함되어 복잡한 질병의 원인을 탐구하는 데 새로운 데이터 기반 관점을 제공합니다. 단일 작업에 정확하게 주석을 달아 전체 라이브러리 네트워크를 추론할 수 있는 이러한 능력은 질량 분석 기술이 "단일 분자 디코딩"에서 "전체 대사체 상호 연결"로 전환되는 새로운 시대를 열었습니다.

드림스 스펙트럼

산업-대학-연구 협력으로 질량 분석 기술 혁신 추진

소분자 질량 분석 및 대사체학 연구 분야에서 전 세계의 대학과 기업은 혁신적인 기술을 사용하여 이 분야의 획기적인 발전을 촉진하고 있습니다.

대학 연구 측면에서는 중국 칭화대학교 후쩌핑(Hu Zeping) 연구실에서 개발한 AI 지원 다중 오믹스 빅데이터 분석 기술을 고정밀 대사체학 방법과 결합하여 종양 미세환경에서 신경 세포와 암세포 간의 대사 상호작용 메커니즘을 성공적으로 규명하고, 치료 표적으로 활용 가능한 신경전달물질 조절 경로를 발견했습니다. 이 연구 결과는 네이처(Nature) 저널에 여러 차례 리뷰되었습니다. 중국과학원 다롄 화학물리연구소에서 개발한 "CataAI 특성화 전문가 시스템"은질량 분석 데이터 분석 프로세스에 딥러닝 기술을 통합하고 자체 구축한 데이터베이스와 새로운 알고리즘을 사용하여 질량 스펙트럼에서 분자 구조에 이르기까지 지능적인 권장 사항을 달성했습니다.에너지 촉매 물질의 복잡한 특성화 데이터를 위해 2단계 신경망 모델이 개발되었습니다.

캘리포니아 대학교 샌디에이고(UCSD)의 글로벌 천연물 사회 분자 네트워크(GNPS) 플랫폼이 논문에서 연구한 DreaMS 모델의 핵심 데이터 세트인 GeMS의 소스로서, 기관 간 질량 분석 데이터의 공유와 통합을 지속적으로 촉진하고 있습니다.최근 연구에서는 에탄올과 메탄올 용매 시스템을 비교하여 고처리량 장내 미생물 대사체학 분석 방법을 확립하여 숙주-미생물 상호작용 메커니즘을 분석하는 표준화된 프로세스를 제공했습니다.

기업 혁신 관행 측면에서 미국의 Agilent라는 회사는 Pro iQ 시리즈와 같은 차세대 액체 품질 검출 시스템을 출시했습니다. 이 시스템은 성능과 감도가 뛰어나고 복잡한 생물학적 분자 모니터링과 불순물 검출에 이상적입니다.질량 범위는 m/z 2~3000으로 확장되었으며, Agilent Jet Stream(AJS) 기술을 통해 감도가 향상되었습니다.이 제품은 소분자 및 거대분자의 일상적 및 미량 검출을 지원하여 식품 안전 감독을 위한 혁신적인 기술적 수단을 제공합니다. 중국 기업인 카이라이푸 테크놀로지(Kailaipu Technology)는 액체 크로마토그래피-탠덤 질량 분석 기술을 기반으로 300개 이상의 검출 항목을 포함하는 20개 이상의 임상 질량 분석 키트를 독자적으로 개발했습니다. 그중 혈액 및 소변 내 카테콜아민 대사체 검출 시약은 중국 의학협회 내분비학회 전문가 합의에 포함되어 임상 표준으로 자리매김했습니다.

일반적으로 소분자 질량 분석 및 대사체학 연구 분야는 대학과 기업이 주도하는 기술 혁신을 겪고 있습니다. 이러한 혁신은 이론적으로 생물 시스템의 복잡성에 대한 인간의 이해를 심화시킬 뿐만 아니라, 조기 암 진단부터 심혈관 질환 예후 예측, 촉매 소재 연구 및 개발, 식품 안전 감독에 이르기까지 실제 응용 분야에서 큰 잠재력을 보여줍니다. 알고리즘 혁신과 실험 과학의 공명으로 촉발된 이러한 혁명은 기초 연구부터 임상 응용에 이르기까지 전체 사슬 생태계를 완벽하게 재구성하여 관련 분야에 더욱 광범위한 영향을 미칠 수 있습니다.


마지막으로, 여러분께 추천해 드리고 싶은 행사가 있습니다. HyperAI가 7월 5일 베이징에서 제7회 Meet AI Compiler Technology Salon을 개최합니다.AMD, 베이징 대학교, 목시 집적 회로 등의 많은 고위 전문가를 초대하게 되어 영광입니다. 아래 링크를 클릭하여 등록해 주시기 바랍니다.

https://www.huodongxing.com/event/1810501012111

참고문헌:
1.https://mp.weixin.qq.com/s/1QUjLMtj_6ui9T0gbuZtrA
2.https://dicp.cas.cn/xwdt/ttxw/202411/t20241107_7435521.html
3.https://ccms-ucsd.github.io/GNPSDocumentation/
4.https://mp.weixin.qq.com/s/Wgh2w0G76koqc9AY0PBHcg