HyperAI

尽管语言模型在图像生成、 trivia 问答和简单计算等任务上不断进步，但在处理复杂推理任务时仍远未达到人类水平。例如，让模型玩数独，它往往无法独立完成，或效率极低，尽管能验证用户答案的正确性。面对需要严格规则的开放性问题——如设计分子、撰写数学证明或规划旅行路线——当前模型多只能提供解题思路，而难以自主执行。大模型虽有较强推理能力，但响应慢、算力消耗大；小模型则因能力有限，难以胜任。为突破这一瓶颈，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究团队提出一种协作式框架，名为“基于推理编程的语言模型分布约束”（DisCIPL）。该方法让大型语言模型（LLM）担任“规划者”，统筹策略，并将任务分解后分配给多个小型模型协同完成。这一机制使小模型在准确性上超越主流大模型如 GPT-4o，逼近顶尖推理系统 o1 的水平，同时显著提升效率。 DisCIPL的核心在于使用一种名为 LLaMPPL 的编程语言，由 MIT 概率计算项目开发，用于精确表达规则。例如，可编码“写一首八行诗，每行恰好八个字”，从而引导小模型分段生成符合约束的内容。大型模型负责制定计划、协调分工，并在必要时修正输出，确保整体一致性。实验表明，DisCIPL在生成受约束文本方面表现优异，例如写出恰好18个单词、第四词为“格拉斯哥”、第八词为“在”、第十一词为“和”的句子，既准确又通顺。相比 o1 等先进系统，DisCIPL在推理过程上使用更紧凑的 Python 代码，实现推理长度缩短40.1%，成本降低80.2%。由于采用成本仅为大模型千分之一至万分之一的小模型作为执行者，系统具备极强可扩展性，可并行运行数十个模型，大幅降低算力开销。在真实任务测试中，DisCIPL在制作带预算的购物清单、撰写申请书、规划行程等方面均表现优异，远超 GPT-4o 和仅靠小模型的基线方案。研究团队指出，该框架未来可进一步发展为递归结构，甚至支持大模型同时担任领导者与执行者。他们还计划探索其在数学推理和模糊偏好任务中的应用。该研究由 MIT 教授 Joshua Tenenbaum、Vikash Mansinghka，耶鲁大学助理教授 Alex Lew 等共同完成，已在语言建模会议及自主代理研讨会发表，获得 MIT 智能探索计划、IBM 实验室、NSF 等机构支持。这项工作标志着语言模型不仅能“思考”，还能高效“协作”，为构建更智能、更节能的AI系统开辟新路径。

相关链接

相关链接

相关链接

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

Command Palette

小型语言模型如何突破极限：实现复杂推理的新路径

相关链接

Command Palette

小型语言模型如何突破极限：实现复杂推理的新路径

相关链接

Command Palette

小型语言模型如何突破极限：实现复杂推理的新路径

相关链接

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力