16 天前
DiffAug:通过无领域知识的基于扩散的数据增强提升无监督对比学习
Zelin Zang, Hao Luo, Kai Wang, Panpan Zhang, Fan Wang, Stan.Z Li, Yang You

摘要
无监督对比学习在计算机视觉、生物学等领域日益受到关注,其通过预定义的正样本与负样本进行表征学习。数据增强作为提升对比学习性能的关键组件,主要分为人工设计与基于模型两类方法。然而,人工设计的方法依赖领域专家知识,且在某些情况下可能扭曲数据的语义信息;而基于生成模型的方法通常需要监督数据或大规模外部数据,这在诸多领域已成为制约模型训练的瓶颈。为解决上述问题,本文提出一种新型无监督对比学习方法——DiffAug,其基于扩散模型生成正样本。DiffAug由语义编码器与条件扩散模型构成,其中条件扩散模型根据语义编码生成新的正样本,用于无监督对比学习的训练。通过语义编码器与扩散模型的迭代训练,DiffAug能够以持续、无监督的方式不断提升模型的表征能力。实验结果表明,DiffAug在DNA序列、视觉图像及生物特征数据集上均优于现有的人工设计方法与当前最优的基于模型的数据增强方法。代码已公开,供审阅使用,地址为:\url{https://github.com/zangzelin/code_diffaug}。