2ヶ月前
MassSpecGym: 分子の発見と同定のためのベンチマーク
Roman Bushuiev; Anton Bushuiev; Niek F. de Jonge; Adamo Young; Fleming Kretschmer; Raman Samusevich; Janne Heirman; Fei Wang; Luke Zhang; Kai Dührkop; Marcus Ludwig; Nils A. Haupt; Apurva Kalia; Corinna Brungs; Robin Schmid; Russell Greiner; Bo Wang; David S. Wishart; Li-Ping Liu; Juho Rousu; Wout Bittremieux; Hannes Rost; Tytus D. Mak; Soha Hassoun; Florian Huber; Justin J.J. van der Hooft; Michael A. Stravs; Sebastian Böcker; Josef Sivic; Tomáš Pluskal

要約
生物学および環境サンプル中の分子の発見と同定は、バイオメディカル科学や化学の進歩にとって極めて重要です。タンデム質量分析法(MS/MS)は、分子構造を高スループットで解明する主要な技術です。しかし、質量スペクトルから分子構造を解読することは、専門家が行う場合でも非常に困難であり、その結果、取得された大多数のMS/MSスペクトルが未解釈のままとなっています。これにより、基礎となる(生)化学プロセスの理解が制限されています。MS/MSスペクトルから分子構造を予測する機械学習応用において数十年にわたる進展があったにもかかわらず、新しい手法の開発は標準的なデータセットや評価プロトコルの欠如によって著しく阻害されています。この問題に対処するために、私たちはMassSpecGym -- MS/MSデータから分子の発見と同定を行う最初の包括的なベンチマークを提案します。当ベンチマークには最大規模の公開可能な高品質ラベル付きMS/MSスペクトル収集が含まれており、de novo分子構造生成、分子検索、スペクトルシミュレーションという3つのMS/MSアノテーション課題を定義しています。また、新しい評価指標と汎化能力を求められるデータ分割を含むため、MS/MSアノテーションタスクを標準化し、広範な機械学習コミュニティにとって問題へのアクセスが容易になっています。MassSpecGymはhttps://github.com/pluskal-lab/MassSpecGymで公開されています。