17 天前
通过重新审视高频分量提升视觉Transformer性能
Jiawang Bai, Li Yuan, Shu-Tao Xia, Shuicheng Yan, Zhifeng Li, Wei Liu

摘要
Transformer模型在处理各类视觉任务中已展现出令人瞩目的有效性。然而,与卷积神经网络(CNN)模型的训练相比,视觉Transformer(ViT)模型的训练更为困难,且高度依赖大规模训练数据集。为解释这一现象,我们提出一个假设:ViT模型在捕捉图像高频成分方面的能力弱于CNN模型,并通过频域分析对该假设进行了验证。基于这一发现,我们从新的频率视角重新审视了现有提升ViT性能的技术,发现部分技术(如RandAugment)的成功可归因于其对高频成分更有效的利用。为进一步弥补ViT模型在高频信息建模上的不足,我们提出了HAT(High-frequency Augmentation via Adversarial Training),该方法通过对抗训练直接增强图像的高频成分。实验表明,HAT能够稳定提升多种ViT模型的性能(例如,ViT-B提升+1.2%,Swin-B提升+0.5%),并显著提升先进模型VOLO-D5在仅使用ImageNet-1K数据情况下的表现,达到87.3%的准确率。此外,HAT在分布外数据上仍保持优越性能,并可有效迁移到下游任务。相关代码已开源,地址为:https://github.com/jiawangbai/HAT。