8 天前

Jigsaw-ViT:在视觉Transformer中学习拼图任务

Yingyi Chen, Xi Shen, Yahui Liu, Qinghua Tao, Johan A.K. Suykens
Jigsaw-ViT:在视觉Transformer中学习拼图任务
摘要

视觉Transformer(Vision Transformer, ViT)在各类计算机视觉任务中取得的成功,推动了这种无卷积网络的广泛应用。由于ViT基于图像块(image patches)进行处理,使其在拼图谜题(jigsaw puzzle)求解问题上具有天然的适用性。拼图谜题是一类经典的自监督学习任务,旨在将被打乱顺序的图像块重新排列回其原始自然状态。尽管形式简单,但已有研究表明,解决拼图问题对多种基于卷积神经网络(CNNs)的任务具有显著帮助,例如自监督特征表示学习、领域泛化以及细粒度分类。本文提出将拼图谜题作为视觉Transformer的自监督辅助损失任务,构建名为Jigsaw-ViT的模型。我们发现,通过两个简单但有效的修改,可使Jigsaw-ViT在性能上超越标准ViT:一是移除位置编码(positional embeddings),二是对图像块进行随机掩码(random masking)。尽管方法简洁,实验结果表明,Jigsaw-ViT在提升模型泛化能力的同时,也显著增强了对噪声标签和对抗样本的鲁棒性,而这两者在标准ViT中通常存在权衡关系。在大规模图像分类任务上,我们在ImageNet数据集上的实验验证了,引入拼图谜题分支的Jigsaw-ViT相较于标准ViT具有更优的泛化性能。此外,该辅助任务在Animal-10N、Food-101N和Clothing1M等包含噪声标签的数据集上,均有效提升了模型对噪声标签的鲁棒性,同时在对抗样本攻击下也表现出更强的稳定性。相关代码已开源,可通过以下链接访问:https://yingyichen-cyy.github.io/Jigsaw-ViT/