17日前

離散表現がVision Transformerのロバスト性を強化する

Chengzhi Mao, Lu Jiang, Mostafa Dehghani, Carl Vondrick, Rahul Sukthankar, Irfan Essa
離散表現がVision Transformerのロバスト性を強化する
要約

ビジョン・トランスフォーマー(Vision Transformer:ViT)は、画像認識における最先端アーキテクチャとして注目を集めている。近年の研究では、ViTが畳み込みニューラルネットワーク(CNN)と比較してより高いロバスト性を示す可能性が示唆されているが、我々の実験結果によれば、ImageNetで訓練されたViTは局所的なテクスチャに過度に依存しており、形状情報の有効活用が不十分であることが明らかになった。その結果、ViTは分布外(out-of-distribution)の現実世界データへの一般化能力に課題を抱えている。この課題を解決するため、我々はViTの入力層にベクトル量子化エンコーダによって生成される離散トークンを追加する、シンプルかつ効果的なアーキテクチャの改良手法を提案する。従来の連続的なピクセルトークンとは異なり、離散トークンは微小な摂動に対して不変であり、個々のトークンが持つ情報量も少ないため、ViTが不変なグローバルな情報の学習を促進する。実験結果から、4種類のアーキテクチャ変種に対して離散表現を追加することで、7つのImageNetロバスト性ベンチマークにおいて最大12%のロバスト性向上が達成された一方で、ImageNetでの性能は維持された。