17日前

視覚変換器におけるロバスト性の理解

Daquan Zhou, Zhiding Yu, Enze Xie, Chaowei Xiao, Anima Anandkumar, Jiashi Feng, Jose M. Alvarez

要約

最近の研究では、ビジョン変換器（Vision Transformers: ViTs）が多様なノイズや劣化に対して強いロバスト性を示すことが明らかになっている。この性質の一部は自己注意機構（self-attention mechanism）に起因するとされているが、そのメカニズムについてはまだ体系的な理解が不足している。本論文では、自己注意機構がロバストな表現学習に果たす役割を検討する。我々の研究の動機は、近年注目されているビジョン変換器における視覚的グルーピング現象にある。この現象は、自己注意機構が中間レベルの表現を向上させることで、ロバスト性を促進している可能性を示唆している。さらに、注意機構を用いたチャネル処理構造を組み込むことで、その能力を強化した完全注意型ネットワーク（Fully Attentional Networks: FANs）のファミリを提案する。我々は、さまざまな階層的バックボーン上でこの設計を包括的に検証した。提案モデルは、7680万パラメータでImageNet-1kにおいて87.1%の精度、ImageNet-Cでは35.8%のmCE（mean Corruption Error）を達成し、最先端の性能を実現した。また、セマンティックセグメンテーションおよびオブジェクト検出という2つの下流タスクにおいても、最先端の精度とロバスト性を示した。コードは以下のURLから公開されている：https://github.com/NVlabs/FAN。