1 个月前

CoDA：通过扩散适应进行编码LM

Haolin Chen Shiyu Wang Can Qin Bo Pang Zuxin Liu Jielin Qiu Jianguo Zhang Yingbo Zhou Zeyuan Chen Ran Xu

摘要

扩散语言模型有望实现自回归编码器所不具备的双向上下文建模与填空生成能力，但现有的实用系统仍普遍计算开销较大。我们提出 CoDA，一个参数量为 1.7B 的扩散编码器，基于 TPU 完成训练，并配备了完全开源的训练流程。CoDA 结合大规模扩散预训练、以代码为中心的中段微调以及指令微调，实现了基于置信度引导的采样机制，从而在保持推理延迟竞争力的同时提升生成质量。在 HumanEval、MBPP 和 EvalPlus 基准测试中，CoDA-1.7B-Instruct 的性能达到或超越了参数量高达 7B 的其他扩散模型。我们已公开发布模型检查点、评估工具包以及 TPU 训练流水线，旨在加速轻量级基于扩散模型的代码辅助工具的研究进程。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

CoDA：通过扩散适应进行编码LM

Haolin Chen Shiyu Wang Can Qin Bo Pang Zuxin Liu Jielin Qiu Jianguo Zhang Yingbo Zhou Zeyuan Chen Ran Xu5 more

摘要

用 AI 构建 AI

Hyper Newsletters

Haolin Chen Shiyu Wang Can Qin Bo Pang Zuxin Liu Jielin Qiu Jianguo Zhang Yingbo Zhou Zeyuan Chen Ran Xu