HyperAI超神经

ReasonMed:一个由多代理生成的370K数据集,用于推进医学推理

Yu Sun, Xingyu Qian, Weiwen Xu, Hao Zhang, Chenghao Xiao, Long Li, Yu Rong, Wenbing Huang, Qifeng Bai, Tingyang Xu
发布日期: 6/15/2025
ReasonMed:一个由多代理生成的370K数据集,用于推进医学推理
摘要

尽管基于推理的大型语言模型(LLMs)在数学和编程方面表现出色,但它们在知识密集型的医学问答领域的表现仍有待深入研究。为此,我们推出了ReasonMed,这是目前最大的医学推理数据集,包含从170万个由不同大型语言模型生成的初始推理路径中提炼出的37万个高质量示例。ReasonMed的构建过程采用了多代理验证和优化方法,其中我们设计了一种错误优化器(Error Refiner),通过识别并纠正验证器标记的易错步骤来增强推理路径。借助ReasonMed,我们系统地研究了训练医学推理模型的最佳实践,并发现将详细的思维链(Chain-of-Thought, CoT)推理与简洁的答案摘要相结合是最有效的微调策略。基于这一策略,我们训练了ReasonMed-7B模型,该模型为参数量小于100亿的模型设定了新的基准,在PubMedQA上的表现比之前的最佳模型提高了4.17%,甚至超过了LLaMA3.1-70B模型4.60%。