17日前

ロバストなビジョン変換器へ向けて

Xiaofeng Mao, Gege Qi, Yuefeng Chen, Xiaodan Li, Ranjie Duan, Shaokai Ye, Yuan He, Hui Xue
ロバストなビジョン変換器へ向けて
要約

最近のVision Transformer(ViT)およびその改善版の進展により、自己注意機構(self-attention)に基づくネットワークが、多数の視覚タスクにおいて従来の畳み込みニューラルネットワーク(CNN)を上回ることが示された。しかし、既存のViTは標準的な精度と計算コストに焦点を当てており、モデルのロバスト性および一般化性能に対する内在的な影響については十分な検討がなされていない。本研究では、敵対的例、一般的なノイズ、分布シフトに対するロバスト性という観点から、ViTの各構成要素がもたらす影響を体系的に評価した。その結果、一部の構成要素がロバスト性に悪影響を及ぼすことが明らかになった。そこで、ロバスト性に優れた構成要素をブロックとして用い、組み合わせることで、優れた性能と強いロバスト性を併せ持つ新たなビジョントランスフォーマー「Robust Vision Transformer(RVT)」を提案する。さらに、RVTの性能をさらに向上させるために、位置情報を考慮したアテンションスケーリングとパッチ単位のオーギュメンテーションという2つの新しいプラグアンドプレイ技術を提案し、これをRVTと略記する。ImageNetおよび6つのロバスト性ベンチマークにおける実験結果から、従来のViTおよび最先端のCNNと比較して、RVTは優れたロバスト性と一般化能力を示した。特に、RVT-SはImageNet-CやImageNet-Sketchを含む複数のロバスト性リーダーボードでTop-1の順位を達成した。コードは、\url{https://github.com/alibaba/easyrobust}にて公開される予定である。

ロバストなビジョン変換器へ向けて | 最新論文 | HyperAI超神経