Command Palette

Search for a command to run...

8 天前

从去噪到精炼:一种面向视觉-语言扩散模型的校正框架

Yatai Ji Teng Wang Yuying Ge Zhiheng Liu Sidi Yang Ying Shan Ping Luo

从去噪到精炼:一种面向视觉-语言扩散模型的校正框架

摘要

离散扩散模型已成为视觉-语言任务中一个极具前景的研究方向,其具备双向上下文建模能力与理论上的并行化优势。然而,其实际应用受到训练与推理之间不一致性的严重制约,导致灾难性的误差传播:在并行解码过程中初始标记的错误会污染生成上下文,进而引发误差的连锁累积,最终造成语法错误与语义幻觉。为应对这一根本性挑战,我们重新构想生成过程,将其从被动去噪转变为主动修正。为此,我们提出ReDiff——一种增强修正能力的扩散框架,使模型具备识别并自我纠正错误的能力。该方法采用两阶段训练机制:首先,通过训练模型修正合成错误,赋予其基础的修正能力;其次,引入一种新颖的在线自我修正循环,使模型通过学习专家修正结果,显式地训练自身对有缺陷生成草稿进行修正。这种基于错误驱动的学习机制赋予模型重新审视并优化已有生成结果的关键能力,从而有效打破误差传播的恶性循环。大量实验表明,ReDiff显著提升了生成内容的连贯性与事实准确性,实现了远超传统去噪方法的稳定且高效的并行生成能力。相关代码与模型已开源,详见:https://rediff-hku.github.io/。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供