10 天前
Mol-R1:面向分子发现中显式长链思维推理
Jiatong Li, Weida Wang, Qinggang Zhang, Junxian Li, Di Zhang, Changmeng Zheng, Shufei Zhang, Xiaoyong Wei, Qing Li

摘要
大型语言模型(LLMs),尤其是显式长链式思维(Explicit Long Chain-of-Thought, Long-CoT)推理模型,如 DeepSeek-R1 和 QWQ,已展现出强大的推理能力,在常识推理与数学推断任务中取得了令人瞩目的表现。然而,尽管其在诸多领域表现优异,Long-CoT 模型在知识密集型任务(如分子发现)中仍常因推理能力有限且效率低下而受到批评。该领域取得成功依赖于对领域知识的精准理解,包括分子结构与化学原理等,但受限于分子数据固有的复杂性以及高质量专家标注数据的稀缺,这一目标实现起来极具挑战性。为弥合这一差距,我们提出 Mol-R1——一种新型框架,旨在提升 R1 类显式 Long-CoT 推理大模型在基于文本的分子生成任务中的可解释性与推理性能。我们的方法首先通过一种名为“上下文内蒸馏引导的先验调控”(Prior Regulation via In-context Distillation, PRID)的专用蒸馏策略,构建高质量的推理数据集,从而高效生成受先验知识引导的配对推理轨迹。在此基础上,我们进一步提出 MoIA(Molecular Iterative Adaptation,分子迭代适应)训练策略,该策略通过迭代结合监督微调(Supervised Fine-tuning, SFT)与强化策略优化(Reinforced Policy Optimization, RPO),专门用于增强 R1 类推理模型在分子发现任务中的推理能力。最后,我们在基于文本的分子推理生成任务中对 Mol-R1 的性能进行了评估,结果表明其显著优于现有各类基线模型。