2 个月前

属性增强指令调优用于大型语言模型的多任务分子生成

Lin, Xuan ; Chen, Long ; Wang, Yile ; Zeng, Xiangxiang ; Yu, Philip S.
属性增强指令调优用于大型语言模型的多任务分子生成
摘要

大型语言模型(LLMs)在各种自然语言处理任务中得到了广泛应用,例如问答和机器翻译。然而,由于缺乏标注数据以及生物化学性质的手动注释难度较大,分子生成任务的性能仍然受到限制,尤其是在涉及多属性约束的任务中。在这项工作中,我们提出了一种两步框架PEIT(属性增强指令调优),以提高LLMs在分子相关任务中的表现。第一步中,我们使用文本描述、SMILES和生物化学性质作为多模态输入来预训练一个名为PEIT-GEN的模型,通过对齐多模态表示来合成指令数据。第二步中,我们使用合成的数据对现有的开源LLMs进行微调,最终得到的PEIT-LLM能够处理分子描述、基于文本的分子生成、分子性质预测以及我们新提出的多约束分子生成任务。实验结果表明,我们的预训练模型PEIT-GEN在分子描述任务上优于MolT5和BioT5,证明了文本描述、结构和生物化学性质之间的模态对齐效果良好。此外,PEIT-LLM在多任务分子生成方面也显示出显著改进,证明了PEIT框架在各种分子任务中的可扩展性。我们已将代码、构建的指令数据和模型检查点发布在 https://github.com/chenlong164/PEIT。

属性增强指令调优用于大型语言模型的多任务分子生成 | 最新论文 | HyperAI超神经