HyperAIHyperAI

Command Palette

Search for a command to run...

視覚変換器におけるロバスト性の理解

Daquan Zhou Zhiding Yu Enze Xie Chaowei Xiao Anima Anandkumar Jiashi Feng Jose M. Alvarez

概要

最近の研究では、ビジョン変換器(Vision Transformers: ViTs)が多様なノイズや劣化に対して強いロバスト性を示すことが明らかになっている。この性質の一部は自己注意機構(self-attention mechanism)に起因するとされているが、そのメカニズムについてはまだ体系的な理解が不足している。本論文では、自己注意機構がロバストな表現学習に果たす役割を検討する。我々の研究の動機は、近年注目されているビジョン変換器における視覚的グルーピング現象にある。この現象は、自己注意機構が中間レベルの表現を向上させることで、ロバスト性を促進している可能性を示唆している。さらに、注意機構を用いたチャネル処理構造を組み込むことで、その能力を強化した完全注意型ネットワーク(Fully Attentional Networks: FANs)のファミリを提案する。我々は、さまざまな階層的バックボーン上でこの設計を包括的に検証した。提案モデルは、7680万パラメータでImageNet-1kにおいて87.1%の精度、ImageNet-Cでは35.8%のmCE(mean Corruption Error)を達成し、最先端の性能を実現した。また、セマンティックセグメンテーションおよびオブジェクト検出という2つの下流タスクにおいても、最先端の精度とロバスト性を示した。コードは以下のURLから公開されている:https://github.com/NVlabs/FAN


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています