2ヶ月前

プロパティ強化指示調整による大規模言語モデルを用いた多タスク分子生成

Lin, Xuan ; Chen, Long ; Wang, Yile ; Zeng, Xiangxiang ; Yu, Philip S.
プロパティ強化指示調整による大規模言語モデルを用いた多タスク分子生成
要約

大規模言語モデル(LLMs)は、質問応答や機械翻訳などの自然言語処理タスクに広く応用されています。しかし、生物化学的特性のラベル付きデータの不足と手動アノテーションの困難さにより、分子生成タスクにおける性能はまだ制限されており、特に複数の特性制約を含むタスクではその傾向が顕著です。本研究では、分子関連タスクのための大規模言語モデルの性能向上を目指し、二段階フレームワークであるPEIT(Property Enhanced Instruction Tuning)を提案します。第一段階では、文章記述、SMILES(Simplified Molecular Input Line Entry System)、および生物化学的特性を多様な入力として使用し、これらをマルチモーダル表現で整合させることで指示データを合成して、PEIT-GENというモデルを事前学習します。第二段階では、合成されたデータを使用して既存のオープンソースの大規模言語モデルを微調整し、得られたPEIT-LLMは分子キャプション作成、テキストベースの分子生成、分子特性予測、そして我々が新たに提案した複数制約分子生成タスクに対応できるようになります。実験結果は、我々が事前学習したPEIT-GENが分子キャプション作成においてMolT5とBioT5を上回ることを示しており、文章記述、構造、および生物化学的特性間でのモダリティが良好に整合していることが確認されました。さらに、PEIT-LLMは多目的分子生成タスクにおいて有望な改善を見せており、PEITフレームワークが様々な分子関連タスクに対してスケーラビリティを持つことを証明しています。コード、構築した指示データセットおよびモデルチェックポイントは https://github.com/chenlong164/PEIT で公開されます。

プロパティ強化指示調整による大規模言語モデルを用いた多タスク分子生成 | 最新論文 | HyperAI超神経