HyperAI超神经
Back to Headlines

AI双蒸馏与代理-R1技术突破:自然语言处理结合工具使用提升数学解题效率

8 days ago

近日,卡内基梅隆大学的研究人员提出了一种名为DualDistill的框架,结合两种不同类型的教师模型,训练出Agentic-R1模型,该模型在数学问题解决上表现出色。传统长链思维(long-CoT)模型通过反复验证和优化推理过程取得良好效果,但开源版本仅依赖自然语言推理,效率低且容易出错。而工具辅助的推理方法虽然更高效可靠,但在处理抽象或复杂问题时存在不足。 DualDistill框架通过整合一个专注于推理的教师模型和一个结合工具使用的教师模型,训练出Agentic-R1,使其能根据问题类型动态选择最佳策略。在算术和算法任务中,Agentic-R1会调用代码执行工具;而在抽象问题上,则使用自然语言推理。该模型在多个数学推理基准测试中表现优异,优于仅依赖工具或仅依赖推理的模型。 研究还发现,Agentic-R1在79.2%的复杂计算问题中使用代码工具,而在较简单的AMC数据集问题中使用率仅为52%。它通过监督微调学习如何合理调用工具,无需明确指令即可实现高效与准确的平衡。 即使在教师模型不完美的情况下,DualDistill仍能有效提升学生模型的性能。例如,当工具辅助教师在Combinatorics300数据集上准确率仅为48.4%时,Agentic-R1的准确率仍从44.7%提升至50.9%,并最终超越教师模型。 这项研究为构建灵活、高效的AI推理系统提供了新思路,展示了融合不同问题解决策略的潜力。

Related Links