17 天前

带有补丁多样化的视觉Transformer

Chengyue Gong, Dilin Wang, Meng Li, Vikas Chandra, Qiang Liu
带有补丁多样化的视觉Transformer
摘要

视觉变换器(Vision Transformer)在复杂的计算机视觉任务中展现了令人瞩目的性能。然而,直接训练视觉变换器可能导致训练过程不稳定且性能欠佳。近期研究通过修改变换器结构来提升其性能,例如引入卷积层。与此不同,本文提出一种正交的优化思路,在不改变网络结构的前提下,致力于稳定视觉变换器的训练过程。我们观察到,训练不稳定性主要源于提取的图像块(patch)表示之间存在显著的相似性。具体而言,在深层视觉变换器中,自注意力模块倾向于将不同的图像块映射到相似的潜在表示空间,从而造成信息损失并导致性能下降。为缓解这一问题,本文在视觉变换器的训练过程中引入了新颖的损失函数,显式地促进各图像块表示之间的多样性,以实现更具区分性的特征提取。实验结果表明,所提出的方法有效稳定了训练过程,并使得我们能够成功训练更宽更深的视觉变换器。进一步实验显示,增强后的多样化特征在迁移学习的下游任务中带来了显著性能提升。在语义分割任务中,我们在Cityscapes和ADE20k数据集上均取得了当前最先进的(SOTA)结果。相关代码已开源,地址为:https://github.com/ChengyueGongR/PatchVisionTransformer。

带有补丁多样化的视觉Transformer | 最新论文 | HyperAI超神经