8 天前

Jigsaw-ViT：在视觉Transformer中学习拼图任务

Yingyi Chen, Xi Shen, Yahui Liu, Qinghua Tao, Johan A.K. Suykens

摘要

视觉Transformer（Vision Transformer, ViT）在各类计算机视觉任务中取得的成功，推动了这种无卷积网络的广泛应用。由于ViT基于图像块（image patches）进行处理，使其在拼图谜题（jigsaw puzzle）求解问题上具有天然的适用性。拼图谜题是一类经典的自监督学习任务，旨在将被打乱顺序的图像块重新排列回其原始自然状态。尽管形式简单，但已有研究表明，解决拼图问题对多种基于卷积神经网络（CNNs）的任务具有显著帮助，例如自监督特征表示学习、领域泛化以及细粒度分类。本文提出将拼图谜题作为视觉Transformer的自监督辅助损失任务，构建名为Jigsaw-ViT的模型。我们发现，通过两个简单但有效的修改，可使Jigsaw-ViT在性能上超越标准ViT：一是移除位置编码（positional embeddings），二是对图像块进行随机掩码（random masking）。尽管方法简洁，实验结果表明，Jigsaw-ViT在提升模型泛化能力的同时，也显著增强了对噪声标签和对抗样本的鲁棒性，而这两者在标准ViT中通常存在权衡关系。在大规模图像分类任务上，我们在ImageNet数据集上的实验验证了，引入拼图谜题分支的Jigsaw-ViT相较于标准ViT具有更优的泛化性能。此外，该辅助任务在Animal-10N、Food-101N和Clothing1M等包含噪声标签的数据集上，均有效提升了模型对噪声标签的鲁棒性，同时在对抗样本攻击下也表现出更强的稳定性。相关代码已开源，可通过以下链接访问：https://yingyichen-cyy.github.io/Jigsaw-ViT/