18日前
DiffMS:質量分析スペクトルを条件とした分子の拡散生成
Montgomery Bohde, Mrunali Manjrekar, Runzhong Wang, Shuiwang Ji, Connor W. Coley

要約
質量分析法は、未知の分子構造の解明およびその後の科学的発見において基盤的な役割を果たしている。分子構造の解明タスクの一形態として、質量分光スペクトルを条件として分子構造を新規に生成する「条件付きデノボ構造生成」が挙げられる。小分子に関するより正確かつ効率的な科学的発見プロセスの実現を目指し、本研究では、このタスクにおいて最先端の性能を達成する、式制約付きエンコーダ・デコーダ型生成ネットワーク「DiffMS」を提案する。エンコーダはTransformerアーキテクチャを採用し、ピークの化学式や中性損失といった質量分光領域の専門知識をモデル化する。一方、デコーダは、既知の化学式の重原子構成によって制約された離散的グラフ拡散モデルである。潜在表現と分子構造の間を効果的に橋渡しする堅牢なデコーダの開発のため、構造-スプライスペクトルペアが数万件程度にとどまるのに対し、無制限に入手可能なフィンガープリント-構造ペアを用いて、拡散デコーダの事前学習を行った。既存のベンチマークデータセットを用いた広範な実験により、DiffMSが従来のモデルを上回るデノボ分子生成性能を発揮することが確認された。また、拡散手法および事前学習アプローチの有効性を示す複数のアブレーション実験を行い、事前学習データセットサイズの増大に伴い性能が一貫して向上する傾向を明らかにした。DiffMSのコードは、https://github.com/coleygroup/DiffMS にて公開されている。