Command Palette
Search for a command to run...

摘要
当前的大型语言模型(LLM)主要通过显式的文本生成方式实现“思考”,例如思维链(Chain-of-Thought, CoT),这种机制将推理过程推迟到训练后阶段,未能充分挖掘预训练数据的潜力。我们提出并开源了Ouro——这一以自指的“奥罗波罗斯”(Ouroboros)为名的预训练循环语言模型(LoopLM)家族。Ouro通过以下三种方式,将推理能力内建于预训练阶段:(i)在隐空间中进行迭代计算;(ii)采用熵正则化目标函数,实现对推理深度的自学习分配;(iii)训练规模扩展至77亿token。Ouro 1.4B与2.6B模型在广泛基准测试中展现出卓越性能,其表现可媲美甚至超过当前高达120亿参数的先进模型。通过受控实验,我们发现该优势并非源于知识容量的提升,而是源于更优的知识操作能力。此外,我们还发现,LoopLM生成的推理轨迹比显式的CoT更贴近最终输出结果。我们希望本研究能展示LoopLM作为推理时代一种新型可扩展路径的潜力。相关模型可访问:http://ouro-llm.github.io。