2ヶ月前

MolXPT: 分子をテキストでラップして生成的前学習を行う

Zequn Liu; Wei Zhang; Yingce Xia; Lijun Wu; Shufang Xie; Tao Qin; Ming Zhang; Tie-Yan Liu
MolXPT: 分子をテキストでラップして生成的前学習を行う
要約

生成事前学習変換器(Generative Pre-trained Transformer: GPT)は、自然言語処理において大きな成功を収め、関連技術が分子モデリングに適応されています。科学的発見における最も重要な記録がテキストであることを考慮し、本論文では、SMILES(分子の系列表現)をテキストでラップしたテキストと分子の統一言語モデルであるMolXPTを提案します。簡潔に説明すると、各系列内の分子名を検出し、それらを対応するSMILESに置き換えます。これにより、SMILESは周囲のテキストから情報を活用でき、逆もまた同様です。上記のラップされた系列、PubMedからのテキスト系列、およびPubChemからのSMILES系列はすべて、言語モデルの事前学習のために入力されます。実験結果は、MolXPTがMoleculeNetでの分子特性予測において強力な基準モデルを上回り、パラメータ数が半分以下の状態で最良のモデルと同等の性能を示すテキスト-分子翻訳を行い、微調整なしでゼロショット分子生成を可能にするという点で示しています。

MolXPT: 分子をテキストでラップして生成的前学習を行う | 最新論文 | HyperAI超神経