Command Palette

Search for a command to run...

13 天前

TiDAR:在扩散中思考,在自回归中表达

Jingyu Liu Xin Dong Zhifan Ye Rishabh Mehta Yonggan Fu Vartika Singh Jan Kautz Ce Zhang Pavlo Molchanov

TiDAR:在扩散中思考,在自回归中表达

摘要

扩散语言模型具备实现快速并行生成的潜力,而自回归(AR)模型由于其因果结构天然契合语言建模,通常在生成质量上表现更优。这引出一个根本性问题:我们能否实现两者的协同优势——在保持高吞吐量和更高GPU利用率的同时,达到自回归模型的生成质量?现有方法难以有效平衡这两方面:要么采用较弱的模型进行串行草稿(推测解码),以保留自回归结构,但导致草稿效率较低;要么在扩散模型中引入某种从左到右(类似AR)的解码逻辑,这不仅仍存在质量下降问题,也牺牲了其本应具备的并行化潜力。为此,我们提出TiDAR,一种序列级混合架构:在扩散模型中进行 token 草稿(“思考”),再通过自回归方式采样最终输出(“说话”)——整个过程仅需一次前向传播,借助专门设计的结构化注意力掩码实现。该设计充分利用了GPU的空闲计算密度,在草稿生成与结果验证能力之间实现了强大平衡。此外,TiDAR被设计为可独立部署的推理友好型模型(开销低)。我们在15亿(1.5B)和80亿(8B)参数规模下,对TiDAR在生成任务和似然任务上进行了全面评估,对比了自回归模型、推测解码方法以及多种扩散模型变体。得益于并行化草稿与采样机制,以及对精确KV缓存的支持,TiDAR在实际吞吐量上超越了推测解码方法,在效率与质量上均优于Dream、Llada等扩散模型。尤为突出的是,TiDAR是首个在保持高达4.71倍至5.91倍每秒生成token数的同时,成功弥合与自回归模型之间质量差距的架构。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供