Command Palette

Search for a command to run...

5 天前

通过循环语言模型实现潜在推理的扩展

通过循环语言模型实现潜在推理的扩展

摘要

当前的大型语言模型(LLM)主要通过显式的文本生成方式实现“思考”,例如思维链(Chain-of-Thought, CoT),这种机制将推理过程推迟到训练后阶段,未能充分挖掘预训练数据的潜力。我们提出并开源了Ouro——这一以自指的“奥罗波罗斯”(Ouroboros)为名的预训练循环语言模型(LoopLM)家族。Ouro通过以下三种方式,将推理能力内建于预训练阶段:(i)在隐空间中进行迭代计算;(ii)采用熵正则化目标函数,实现对推理深度的自学习分配;(iii)训练规模扩展至77亿token。Ouro 1.4B与2.6B模型在广泛基准测试中展现出卓越性能,其表现可媲美甚至超过当前高达120亿参数的先进模型。通过受控实验,我们发现该优势并非源于知识容量的提升,而是源于更优的知识操作能力。此外,我们还发现,LoopLM生成的推理轨迹比显式的CoT更贴近最终输出结果。我们希望本研究能展示LoopLM作为推理时代一种新型可扩展路径的潜力。相关模型可访问:http://ouro-llm.github.io。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过循环语言模型实现潜在推理的扩展 | 论文 | HyperAI超神经