2달 전
DreaMS를 사용한 수백만 개의 tandem mass spectra로부터 분자 표현의 자기 지도 학습
Roman Bushuiev, Anton Bushuiev, Raman Samusevich, Corinna Brungs, Josef Sivic, Tom\u00e1\u0161 Pluskal

초록
생물학적 및 환경 샘플의 분자 수준에서의 특성을 주로 이온-이온 연속 질량분광법(MS/MS)을 사용하여 분석하지만, 비타겟 대사체 연구 실험에서 얻은 MS/MS 스펙트럼의 해석은 여전히 어려움을 겪고 있습니다. 기존의 질량 스펙트럼 예측을 위한 계산 방법들은 제한된 스펙트럼 라이브러리와 인코딩된 인간 전문 지식에 의존하고 있습니다. 본 연구에서는 MassIVE GNPS 저장소에서 추출한 우리의 GNPS 실험용 질량 스펙트럼(GeMS) 데이터셋으로부터 수백만 개의 주석되지 않은 MS/MS 스펙트럼을 이용해 자기 감독 방식으로 사전 훈련된 트랜스포머 기반 신경망을 소개합니다. 우리는 모델을 마스킹된 스펙트럼 피크와 크로마토그래피 보유 순서를 예측하도록 사전 훈련함으로써, 분자 구조의 풍부한 표현이 나타나는 것을 확인하였으며, 이를 '질량 스펙트럼 주석화를 강화하는 깊은 표현(DreaMS)'이라고 명명하였습니다. 신경망의 추가 조정(fine-tuning)은 다양한 작업에서 최신 성능을 달성하였습니다. 우리는 이 새로운 데이터셋과 모델을 커뮤니티에 공개하며, DreaMS 주석을 사용하여 구성된 2억 100만 개의 MS/MS 스펙트럼 네트워크인 DreaMS Atlas를 출시합니다.