17 天前
基于合成数据的自提升扩散模型
Sina Alemohammad, Ahmed Imtiaz Humayun, Shruti Agarwal, John Collomosse, Richard Baraniuk

摘要
当前,人工智能(AI)领域正面临真实数据日益匮乏的困境,难以支撑日益庞大的生成模型的训练需求,这导致对合成数据训练的依赖急剧上升。然而,若使用当前或以往生成模型所产出的合成数据来训练新一代生成模型,便会陷入一种自噬性(self-consuming)循环,即所谓的“模型自噬紊乱”(Model Autophagy Disorder, MAD)或“模型坍缩”现象,导致合成数据的质量和多样性持续下降。目前主流观点认为,为避免系统滑向MAD状态,应尽量避免在模型训练中使用合成数据。本文提出一种全新的解决思路,将合成数据与真实数据区别对待。我们提出“基于合成数据的自提升扩散模型”(Self-IMproving diffusion models with Synthetic data, SIMS),这是一种面向扩散模型的新训练范式。SIMS利用模型自身生成的合成数据,在生成过程中提供负向引导(negative guidance),主动引导模型的生成路径远离非理想的合成数据流形,逐步逼近真实数据分布。实验表明,SIMS具备自我优化能力:在CIFAR-10与ImageNet-64图像生成任务上,其在Fréchet inception distance(FID)指标上创下新纪录;在FFHQ-64与ImageNet-512任务上也取得了具有竞争力的性能表现。更重要的是,据我们所知,SIMS是首个能够迭代地在自生成合成数据上进行训练,而不会陷入MAD状态的预防性生成式AI算法。此外,SIMS还具备额外优势:能够主动调整扩散模型所生成的合成数据分布,使其与任意目标域内分布相匹配,从而有效缓解数据偏差问题,提升模型的公平性与鲁棒性。