HyperAIHyperAI

Command Palette

Search for a command to run...

小型语言模型如何突破极限:实现复杂推理的新路径

尽管语言模型在图像生成、 trivia 问答和简单计算等任务上不断进步,但在处理复杂推理任务时仍远未达到人类水平。例如,让模型玩数独,它往往无法独立完成,或效率极低,尽管能验证用户答案的正确性。面对需要严格规则的开放性问题——如设计分子、撰写数学证明或规划旅行路线——当前模型多只能提供解题思路,而难以自主执行。大模型虽有较强推理能力,但响应慢、算力消耗大;小模型则因能力有限,难以胜任。 为突破这一瓶颈,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究团队提出一种协作式框架,名为“基于推理编程的语言模型分布约束”(DisCIPL)。该方法让大型语言模型(LLM)担任“规划者”,统筹策略,并将任务分解后分配给多个小型模型协同完成。这一机制使小模型在准确性上超越主流大模型如 GPT-4o,逼近顶尖推理系统 o1 的水平,同时显著提升效率。 DisCIPL的核心在于使用一种名为 LLaMPPL 的编程语言,由 MIT 概率计算项目开发,用于精确表达规则。例如,可编码“写一首八行诗,每行恰好八个字”,从而引导小模型分段生成符合约束的内容。大型模型负责制定计划、协调分工,并在必要时修正输出,确保整体一致性。 实验表明,DisCIPL在生成受约束文本方面表现优异,例如写出恰好18个单词、第四词为“格拉斯哥”、第八词为“在”、第十一词为“和”的句子,既准确又通顺。相比 o1 等先进系统,DisCIPL在推理过程上使用更紧凑的 Python 代码,实现推理长度缩短40.1%,成本降低80.2%。由于采用成本仅为大模型千分之一至万分之一的小模型作为执行者,系统具备极强可扩展性,可并行运行数十个模型,大幅降低算力开销。 在真实任务测试中,DisCIPL在制作带预算的购物清单、撰写申请书、规划行程等方面均表现优异,远超 GPT-4o 和仅靠小模型的基线方案。研究团队指出,该框架未来可进一步发展为递归结构,甚至支持大模型同时担任领导者与执行者。他们还计划探索其在数学推理和模糊偏好任务中的应用。 该研究由 MIT 教授 Joshua Tenenbaum、Vikash Mansinghka,耶鲁大学助理教授 Alex Lew 等共同完成,已在语言建模会议及自主代理研讨会发表,获得 MIT 智能探索计划、IBM 实验室、NSF 等机构支持。这项工作标志着语言模型不仅能“思考”,还能高效“协作”,为构建更智能、更节能的AI系统开辟新路径。

相关链接