Command Palette
Search for a command to run...
Zhichao Wang Dongyang Ma Xinting Huang Deng Cai Tian Lan Jiahao Xu Haitao Mi Xiaoying Tang Yan Wang

摘要
将“端到端”一词用于大语言模型(LLM)是一种误称。在实际应用中,这些模型依赖于非可微的解码过程,需人工费力地调参,如温度(temperature)和top-p等超参数。本文提出一种名为AutoDeco的新架构,通过学习自主控制其解码策略,真正实现“端到端”的生成。我们对标准Transformer结构进行了轻量级扩展,引入了可动态预测上下文相关温度与top-p值的轻量级头模块,同时输出下一个词的logits。该方法将解码过程转化为参数化、逐token的生成机制,使模型能够在单次前向传播中自主调节其采样策略。在八个基准测试上的大量实验表明,AutoDeco不仅显著优于默认的解码策略,其性能甚至可与通过“测试集作弊”(hacking the test set)获得的“理想调参”基线相媲美——这为任何静态方法设定了一个实际的性能上限。更为关键的是,我们发现模型具备一种新兴的基于指令的解码控制能力:模型能够理解自然语言指令(如“以低随机性生成”),并据此在逐token的基础上动态调整其预测的温度与top-p值,从而开启了一种可调控、可交互的大语言模型解码新范式。