要約
最近、Transformerモデルと簡略化された分子構造記述子システム(SMILES)を組み合わせることで、化学情報学における課題解決に非常に有効なアプローチが示されている。しかし、これらのモデルはしばしば特定の1つの用途に特化して開発されており、トレーニングに非常に高いリソースを要する傾向がある。本研究では、シーケンスからシーケンスへの変換および分類的な化学情報学タスクの両方に迅速に適用可能な、Transformerに基づくChemformerモデルを提案する。さらに、自己教師学習による事前学習が、下流タスクにおける性能向上と収束速度の大幅な高速化を実現できることを示した。直接合成および逆合成予測のベンチマークデータセットにおいて、トップ1精度で最先端の結果を達成した。また、分子最適化タスクにおいて既存のアプローチを改善し、Chemformerが複数の分類的タスクを同時に最適化可能であることも示した。本研究で用いたモデル、データセット、およびコードは、論文公開後に公開される予定である。