2ヶ月前

DreaMS を使用して数百万のタンデム質量スペクトルから分子表現を自己監督学習する

Roman Bushuiev, Anton Bushuiev, Raman Samusevich, Corinna Brungs, Josef Sivic, Tom\u00e1\u0161 Pluskal
DreaMS を使用して数百万のタンデム質量スペクトルから分子表現を自己監督学習する
要約

分子レベルでの生物学的および環境サンプルの特性評価には主に串联質量分析法(MS/MS)が使用されていますが、非標的代謝組学実験からの串联質量スペクトルの解釈は依然として課題となっています。既存の質量スペクトルから予測を行う計算手法は、限られたスペクトルライブラリとハードコーディングされた人的専門知識に依存しています。本稿では、MassIVE GNPS リポジトリから抽出した GNPS 実験質量スペクトラ (GeMS) データセットを用いて、数百万の未注釈の串联質量スペクトル上で自己監督学習で事前学習されたトランスフォーマーに基づくニューラルネットワークを紹介します。我々は、モデルをマスクされたスペクトルピークとクロマトグラフィック保留順序の予測に事前学習させることで、分子構造の豊かな表現が現れることを示しました。この表現を「深層表現による質量スペクトル注釈の強化」(Deep Representations Empowering the Annotation of Mass Spectra, DreaMS)と名付けました。さらにニューラルネットワークを微調整することで、様々なタスクにおいて最先端の性能が得られました。我々は新しいデータセットとモデルをコミュニティに提供し、「DreaMS アトラス」—DreaMS 注釈を使用して構築された2億1千万件の MS/MS スペクトルの分子ネットワーク—を公開します。

DreaMS を使用して数百万のタンデム質量スペクトルから分子表現を自己監督学習する | 最新論文 | HyperAI超神経