Command Palette

Search for a command to run...

1 个月前

代码辅助思维链与指令的扩展用于模型推理

Honglin Lin Qizhi Pei Xin Gao Zhuoshi Pan Yu Li Juntao Li Conghui He Lijun Wu

代码辅助思维链与指令的扩展用于模型推理

摘要

推理能力对于大型语言模型(LLMs)解决复杂任务至关重要,然而实现可靠且可扩展的推理仍面临挑战。尽管思维链(Chain-of-Thought, CoT)提示已成为主流方法,但现有技术常存在生成过程不可控、推理质量不足以及推理路径多样性有限等问题。近期研究尝试通过代码来增强CoT,将推理过程锚定在可执行的步骤上,但这类方法通常局限于预定义的数学问题,限制了其可扩展性和泛化能力。在本工作中,我们提出Caco(Code-Assisted Chain-of-Thought),一种新型框架,通过代码驱动的增强机制,自动合成高质量、可验证且多样化的指令-思维链(instruction-CoT)推理数据。与先前工作不同,Caco首先在统一代码格式下,对现有数学与编程解决方案进行微调,构建基于代码的CoT生成器;随后将数据生成规模扩展至大量多样化的推理轨迹。关键在于,我们引入基于代码执行的自动化验证与基于规则的过滤机制,以确保推理的逻辑正确性与结构多样性;随后通过逆向工程,将过滤后的输出转化为自然语言指令和语言形式的思维链,从而提升任务适应性。这一闭环流程实现了完全自动化、可扩展的推理数据合成,且保证生成内容具备可执行性。在我们构建的Caco-1.3M数据集上的实验表明,经Caco训练的模型在数学推理基准测试中表现出强劲的竞争力,优于现有多个强基线模型。进一步分析显示,Caco所采用的代码锚定验证机制与指令多样性设计,显著提升了模型在未见任务上的泛化能力。本工作建立了一种无需人工干预的自维持、可信推理系统构建范式。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供