Jigsaw-ViT:Vision Transformerにおけるジグソーパズルの学習

視覚変換器(Vision Transformer: ViT)が様々なコンピュータビジョンタスクにおいて成功を収めたことにより、畳み込み演算を一切用いないこのネットワークの普及はますます進んでいます。ViTが画像パッチを処理するという特徴から、シャッフルされた順序で配置された画像パッチを元の自然な配置に戻すことを目的とする、古典的な自己教師学習タスクである「ジグソーパズルの解法」問題との関連性が期待されています。たとえシンプルなタスクであっても、畳み込みニューラルネットワーク(CNN)を用いた研究では、ジグソーパズルの解法が自己教師学習による特徴表現学習、ドメイン一般化、細粒度分類など多様なタスクに有用であることが示されています。本論文では、画像分類タスクにおけるViTの自己教師学習補助損失としてジグソーパズルの解法を活用する手法、すなわち「Jigsaw-ViT」を提案します。我々は、標準的なViTよりも優れた性能を実現するための2つの改良点を提示します。すなわち、位置埋め込み(positional embeddings)を削除すること、およびパッチをランダムにマスキングすることです。これらは単純な手法ではありますが、Jigsaw-ViTが標準的なViTと比較して、一般化性能とロバスト性の両方を向上させることができることを明らかにしました。これは、通常はトレードオフ関係にある性能指標であるため、特に注目すべき成果です。実験的に、ImageNetにおける大規模画像分類タスクにおいて、ジグソーパズルブランチを追加したJigsaw-ViTが標準ViTよりも優れた一般化性能を示すことを確認しました。さらに、ノイズのあるラベルに対するロバスト性も、Animal-10N、Food-101N、Clothing1Mのデータセットにおいて向上し、敵対的例に対する耐性も改善されました。本研究の実装コードは、以下のURLから公開されています:https://yingyichen-cyy.github.io/Jigsaw-ViT/。