17 天前

LaDiC:扩散模型在图像到文本生成任务中真的不如自回归模型吗?

Yuchi Wang, Shuhuai Ren, Rundong Gao, Linli Yao, Qingyan Guo, Kaikai An, Jianhong Bai, Xu Sun
LaDiC:扩散模型在图像到文本生成任务中真的不如自回归模型吗?
摘要

扩散模型在文本到图像生成任务中展现出卓越的能力,然而在图像到文本生成(特别是图像字幕生成)任务中的表现却显著落后于自回归(Auto-Regressive, AR)模型,这引发了对其在该类任务中适用性的质疑。本文重新审视了扩散模型,强调其在全局上下文建模与并行解码方面的优势。得益于这些特性,扩散模型能够有效缓解AR方法固有的局限性,包括推理速度慢、误差传播以及单向生成约束等问题。此外,我们识别出扩散模型性能不足的根本原因在于:缺乏用于图像-文本对齐的有效潜在空间,以及连续扩散过程与离散文本数据之间的不匹配。针对上述挑战,本文提出一种新型架构——LaDiC(Latent Diffusion for Captioning),该架构采用分拆式BERT(split BERT)构建专用于字幕生成的潜在空间,并引入正则化模块以应对不同长度文本的建模需求。同时,该框架集成了一个用于语义图像到文本转换的扩散器(diffuser),以及一种名为“Back & Refine”的推理增强技术,以提升生成过程中词元之间的交互能力。在MS COCO数据集上的实验结果表明,LaDiC在基于扩散模型的方法中达到当前最优性能,获得38.2的BLEU@4得分与126.2的CIDEr得分,且无需预训练或额外辅助模块。这一成果充分证明了扩散模型在图像到文本生成任务中具备与自回归模型相媲美的强大竞争力,揭示了其在该领域尚未被充分挖掘的巨大潜力。