5 天前

通过循环语言模型实现潜在推理的扩展

Rui-Jie Zhu Zixuan Wang Kai Hua Tianyu Zhang Ziniu Li Haoran Que Boyi Wei Zixin Wen Fan Yin He Xing

摘要

当前的大型语言模型（LLM）主要通过显式的文本生成方式实现“思考”，例如思维链（Chain-of-Thought, CoT），这种机制将推理过程推迟到训练后阶段，未能充分挖掘预训练数据的潜力。我们提出并开源了Ouro——这一以自指的“奥罗波罗斯”（Ouroboros）为名的预训练循环语言模型（LoopLM）家族。Ouro通过以下三种方式，将推理能力内建于预训练阶段：（i）在隐空间中进行迭代计算；（ii）采用熵正则化目标函数，实现对推理深度的自学习分配；（iii）训练规模扩展至77亿token。Ouro 1.4B与2.6B模型在广泛基准测试中展现出卓越性能，其表现可媲美甚至超过当前高达120亿参数的先进模型。通过受控实验，我们发现该优势并非源于知识容量的提升，而是源于更优的知识操作能力。此外，我们还发现，LoopLM生成的推理轨迹比显式的CoT更贴近最终输出结果。我们希望本研究能展示LoopLM作为推理时代一种新型可扩展路径的潜力。相关模型可访问：http://ouro-llm.github.io。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

通过循环语言模型实现潜在推理的扩展

Rui-Jie Zhu Zixuan Wang Kai Hua Tianyu Zhang Ziniu Li Haoran Que Boyi Wei Zixin Wen Fan Yin He Xing23 more

摘要

用 AI 构建 AI

Hyper Newsletters

Rui-Jie Zhu Zixuan Wang Kai Hua Tianyu Zhang Ziniu Li Haoran Que Boyi Wei Zixin Wen Fan Yin He Xing