9日前

SELFormer：SELFIES言語モデルを用いた分子表現学習

Atakan Yüksel, Erva Ulusoy, Atabey Ünlü, Tunca Doğan

要約

膨大な化学空間の自動計算分析は、ドラッグディスカバリーや材料科学など、多数の研究分野において不可欠である。近年、複雑なデータをコンパクトかつ情報豊かな数値表現に変換するという目的で、表現学習（representation learning）技術が注目されている。分子表現を効率的に学習するアプローチの一つとして、自然言語処理（NLP）アルゴリズムを用いて化学物質の文字列表記を処理する方法が用いられている。これまでに提案された多くの手法は、SMILES表記を主に用いているが、SMILESには妥当性やロバスト性に関する多くの問題が伴い、データに隠された知識を効果的に抽出する上でモデルの性能を制限する可能性がある。本研究では、100%の妥当性を保ちつつ、コンパクトかつ表現力に優れた表記法であるSELFIESを入力として用いる、Transformerアーキテクチャに基づく化学言語モデル「SELFormer」を提案する。このモデルは、柔軟性と高品質な分子表現を学習することを目的としている。SELFormerは、200万種のドラッグライク化合物を用いて事前学習（pre-training）を行い、さまざまな分子性質予測タスクに対して微調整（fine-tuning）を実施した。性能評価の結果、SELFormerは、グラフ学習ベースのアプローチやSMILESに基づく化学言語モデルを含む、すべての競合手法を上回り、分子の水溶性および有害薬物反応（adverse drug reactions）の予測において優れた性能を示した。また、次元削減を用いた可視化により、SELFormerが学習した分子表現の特性を分析した結果、事前学習段階でのモデルでも構造的性質が異なる分子を区別できることが明らかになった。本研究では、SELFormerをプログラム可能なツールとして公開し、関連データセットおよび事前学習済みモデルも併せて提供している。総合的に、本研究は化学言語モデルにおけるSELFIES表記法の有効性を実証し、所望の特性を持つ新規ドラッグ候補の設計・発見に向けた新たな可能性を切り開くものである。