11 天前

MolReFlect:迈向分子与文本之间细粒度的上下文对齐

{Qing Li, Yuqiang Li, Dongzhan Zhou, Wenqi Fan, Di Zhang, Jingdi Lei, Wei Liu, Yunqing Liu, Jiatong Li}
MolReFlect:迈向分子与文本之间细粒度的上下文对齐
摘要

分子发现是极具影响力的科研领域,其成果广泛应用于药物研发、材料科学等诸多方面。近年来,大型语言模型(Large Language Models, LLMs)在分子理解与生成任务中得到广泛应用,然而分子与其对应描述文本之间的对齐问题仍是一个重大挑战。以往的研究通常将分子简化为通用的SMILES字符串或分子图结构,忽视了分子子结构与描述性文本短语之间的细粒度对齐关系,而这种细粒度对齐对于实现准确且可解释的预测至关重要。为此,我们提出了一种新型的教师-学生框架——MolReFlect,旨在以情境化的方式实现分子与文本描述之间的细粒度对齐。该方法首先利用一个更大的教师语言模型,通过直接从分子描述或SMILES字符串中提取关键语义短语,并将其映射到相应的分子子结构或特征上,从而生成详细的对齐标注。为进一步优化这些对齐结果,我们引入了“上下文选择性反思”(In-Context Selective Reflection)机制:该机制将先前的提取结果作为上下文示例,引导教师模型进行反思与修正,随后由一个较小的学生模型从上下文反思结果与历史提取结果中进行选择与整合。最后,我们通过“思维链式上下文分子微调”(Chain-of-Thought In-Context Molecule Tuning)进一步提升学生模型的学习效果,将细粒度对齐信息与思维链(Chain-of-Thought)推理过程有机结合,形成结构化的推理路径。实验结果表明,MolReFlect显著提升了如Mistral-7B等大型语言模型在分子-文本翻译任务中的性能,在ChEBI-20数据集上达到了当前最优(SOTA)水平。该研究不仅显著增强了LLMs在分子-描述生成任务中的生成能力,更构建了一个更具可解释性的分子理解与生成框架,为未来智能化学与药物发现提供了有力支持。

MolReFlect:迈向分子与文本之间细粒度的上下文对齐 | 最新论文 | HyperAI超神经