11일 전

Transformers는 CNN보다 더 강건한가?

Yutong Bai, Jieru Mei, Alan Yuille, Cihang Xie
Transformers는 CNN보다 더 강건한가?
초록

Transformer는 시각 인식 분야에서 강력한 도구로 부상하고 있다. 다양한 시각 기준에서 경쟁적인 성능을 보여주는 것은 물론, 최근 연구들은 Transformer가 전통적인 합성곱 신경망(Convolutional Neural Networks, CNNs)보다 훨씬 더 견고하다고 주장하고 있다. 그러나 놀랍게도, 이러한 결론들은 불공정한 실험 설정에서 도출된 것으로, Transformer와 CNN은 서로 다른 규모에서 비교되었으며, 각각 다른 학습 프레임워크를 적용받았다. 본 논문에서는 Transformer와 CNN 간의 공정하고 심층적인 비교를 처음으로 제공함으로써, 특히 견고성(evaluation of robustness)에 초점을 맞춘다.우리가 제안하는 통합된 학습 설정을 바탕으로, 기존의 ‘Transformer가 적대적 공격에 대한 견고성 측정에서 CNN을 능가한다’는 믿음에 도전한다. 더욱 놀라운 점은, Transformer의 학습 기법(훈련 레시피)을 적절히 채택할 경우, CNN도 적대적 공격에 대해 Transformer와 비슷한 수준의 견고성을 쉽게 달성할 수 있다는 점이다. 또한, 분포 외(out-of-distribution) 샘플에 대한 일반화 성능 측면에서, 외부 대규모 데이터셋에서의 사전 학습이 Transformer가 CNN보다 우수한 성능을 발휘하기 위해 필수적인 조건은 아니라는 점을 보여준다. 추가적인 분석 결과에 따르면, 이러한 더 강한 일반화 능력은 주로 Transformer의 자기주의(attention-like) 아키텍처 자체에 기인하며, 다른 학습 설정 요인보다는 그에 더 큰 영향을 받는다.이 연구가 커뮤니티가 Transformer와 CNN의 견고성에 대해 보다 정확하고 깊이 있는 이해를 하며, 보다 공정한 벤치마킹을 수행하는 데 기여하기를 기대한다. 코드와 모델은 공개적으로 제공되며, 다음 링크에서 확인할 수 있다: https://github.com/ytongbai/ViTs-vs-CNNs.

Transformers는 CNN보다 더 강건한가? | 최신 연구 논문 | HyperAI초신경