Command Palette
Search for a command to run...
Chenze Shao Darren Li Fandong Meng Jie Zhou

摘要
大型语言模型(LLMs)的效率从根本上受限于其逐个标记(token-by-token)的串行生成过程。我们认为,突破这一瓶颈需要为LLM的扩展引入一个全新的设计维度:提升每一步生成的语义带宽。为此,我们提出了连续自回归语言模型(Continuous Autoregressive Language Models, CALM),实现了从离散的下一个标记预测到连续的下一个向量预测的范式转变。CALM利用高保真自编码器,将一段K个标记压缩为单一连续向量,该向量可实现超过99.9%的重建准确率,从而恢复原始标记序列。这一机制使我们能够将语言建模为连续向量序列,而非离散标记序列,从而将生成步骤数量减少K倍。这一范式转变要求配套的新型建模工具集,因此我们构建了一个全面的无似然(likelihood-free)框架,支持在连续空间中实现稳健的训练、评估与可控采样。实验结果表明,CALM显著优化了性能与计算成本之间的权衡,在远低于传统离散基线模型的计算开销下,实现了相当甚至更优的性能。更重要的是,这些发现确立了“下一个向量预测”作为构建超高效语言模型的一条强大且可扩展的新路径。代码:https://github.com/shaochenze/calm;项目主页:https://shaochenze.github.io/blog/2025/CALM。