11 天前
AlignMixup:通过插值对齐特征提升表示能力
Shashanka Venkataramanan, Ewa Kijak, Laurent Amsaleg, Yannis Avrithis

摘要
Mixup 是一种强大的数据增强方法,它通过在输入空间或特征空间中对两个或多个样本进行插值,并对相应的目标标签进行相应插值,从而生成新的训练样本。近年来,许多 Mixup 方法侧重于将两个或多个物体裁剪并粘贴到同一张图像中,这种做法更偏向于高效处理,而非严格意义上的插值。然而,如何最优地对图像进行插值仍缺乏明确的定义。从这一角度出发,Mixup 与自编码器(autoencoders)产生了联系,因为自编码器通常能够“良好地进行插值”——例如,生成一个能够连续形变为另一张图像的中间图像。在本研究中,我们从插值的视角重新审视 Mixup,并提出 AlignMix 方法,该方法在特征空间中对两幅图像进行几何对齐。通过建立图像间的对应关系,我们能够在保持其中一组特征位置不变的前提下,对两组特征进行插值。有趣的是,这种机制使得 Mixup 生成的结果在很大程度上保留了其中一幅图像的几何结构或姿态,同时融合了另一幅图像的纹理特征,从而与风格迁移(style transfer)任务产生了自然关联。此外,我们进一步证明,即使分类器从未接触过自编码器的解码输出图像,自编码器仍能有效提升表示学习的效果。在五个不同的基准测试中,AlignMix 的性能显著优于当前最先进的 Mixup 方法。