
Transformerは視覚認識において強力なツールとして浮上している。近年の研究では、幅広い視覚ベンチマークにおいて競争力ある性能を示すだけでなく、畳み込みニューラルネットワーク(CNN)よりもはるかにロバストであるという主張もなされている。しかし、驚くべきことに、これらの結論は、TransformerとCNNが異なるスケールで比較され、別々の学習フレームワークを用いて評価された不公平な実験設定に基づいていることが明らかになった。本論文では、ロバスト性評価に焦点を当て、TransformerとCNNの間で初めて公平かつ包括的な比較を行うことを目的とする。統一された学習設定のもとで、我々は、敵対的攻撃に対するロバスト性を測定する際、TransformerがCNNを上回るという従来の見解に挑戦する。さらに驚くべきことに、CNNがTransformerの学習手法(training recipes)を適切に採用すれば、敵対的攻撃に対する防御能力においてTransformerと同等のロバスト性を容易に達成できることを示した。一方、分布外(out-of-distribution)サンプルに対する一般化性能に関しては、TransformerがCNNを上回る性能を発揮するためには、外部の大規模データセットでの事前学習が本質的な要件であるとは言えないことを明らかにした。さらに、アブレーション実験の結果から、Transformerの優れた一般化性能は、主にその自己注意(self-attention)構造そのものに起因しており、他の学習設定に起因するものではないことが示唆された。本研究が、コミュニティにおけるTransformerとCNNのロバスト性に関する理解とベンチマーク手法の深化に貢献することを期待する。コードおよびモデルは、https://github.com/ytongbai/ViTs-vs-CNNs にて公開されている。