17일 전

비전 트랜스포머의 강건성 이해

Daquan Zhou, Zhiding Yu, Enze Xie, Chaowei Xiao, Anima Anandkumar, Jiashi Feng, Jose M. Alvarez
비전 트랜스포머의 강건성 이해
초록

최근 연구에 따르면, 비전 트랜스포머(Vision Transformers, ViTs)는 다양한 종류의 손상(corruptions)에 대해 강력한 내성성을 보인다. 이 특성은 부분적으로 자기 주의(mself-attention) 메커니즘에 기인하지만, 여전히 체계적인 이해가 부족한 상황이다. 본 논문에서는 자기 주의가 강건한 표현을 학습하는 데 수행하는 역할을 탐구한다. 본 연구의 동기는 비전 트랜스포머에서 등장하는 새로운 시각적 그룹화(visual grouping) 현상에 기인한다. 이 현상은 자기 주의가 중간 수준의 표현을 향상시킴으로써 강건성을 촉진할 수 있음을 시사한다. 이를 바탕으로, 자기 주의 채널 처리 설계를 도입하여 이 능력을 강화한 완전 주의 기반 네트워크(Fully Attentional Networks, FANs)의 일족을 제안한다. 제안한 설계는 다양한 계층적 백본에서 철저히 검증되었으며, 7680만 파라미터를 가진 모델은 ImageNet-1k에서 87.1%의 정확도와 ImageNet-C에서 35.8%의 mCE(median Corruption Error)를 달성하여 최신 기준을 확립했다. 또한, 세분화 분할과 객체 탐지라는 두 가지 하류 작업에서 역시 최고 수준의 정확도와 강건성을 입증하였다. 코드는 다음 주소에서 공개되어 있다: https://github.com/NVlabs/FAN.

비전 트랜스포머의 강건성 이해 | 최신 연구 논문 | HyperAI초신경