2ヶ月前

MolFM: 多モーダル分子基盤モデル

Yizhen Luo; Kai Yang; Massimo Hong; Xing Yi Liu; Zaiqing Nie
MolFM: 多モーダル分子基盤モデル
要約

分子に関する知識は、3つの異なる情報源のモダリティに存在しています:分子構造、生物医学文書、および知識ベース。これらのモダリティから分子に関する知識を効果的に取り込むことは、生物医学研究を促進するために極めて重要な意義を持っています。しかし、既存の多モーダル分子基盤モデルは、分子構造とテキストとの間の複雑な関連性を捉えることに制限があり、さらに重要なのは、それらのいずれも知識グラフから得られる豊富な分子専門知識を利用しようとしていないことです。本研究では、MolFM(Multimodal Molecular Foundation Model)を導入します。これは、分子構造、生物医学テキスト、および知識グラフからの共同表現学習を促進するための多モーダル分子基盤モデルです。我々は、分子構造の原子間、分子エンティティの近傍間、そして意味的に関連するテキスト間でのクロスモーダル注意機構を提案し、クロスモーダル理解を促進します。理論的な分析により示されるように、我々のクロスモーダル事前学習は同一の分子や類似した構造や機能を持つ分子について異なるモダリティ間の特徴空間における距離を最小化することで局所的および全体的な分子知識を捉えています。MolFMは様々な下流タスクにおいて最先端の性能を達成しており、クロスモーダル検索においてはゼロショット設定とファインチューニング設定でそれぞれ12.13%と5.04%の絶対的な改善を既存モデルに対して達成しています。さらに、定性的分析ではMolFMが分子部分構造と知識グラフから根拠を提供する潜在的能力が示されています。コードとモデルはhttps://github.com/BioFM/OpenBioMed で利用可能です。

MolFM: 多モーダル分子基盤モデル | 最新論文 | HyperAI超神経