17일 전
AutoFormer: 시각 인식을 위한 Transformers 탐색
Minghao Chen, Houwen Peng, Jianlong Fu, Haibin Ling

초록
최근 들어 순수 트랜스포머 기반 모델은 이미지 분류 및 감지와 같은 비전 작업에서 큰 잠재력을 보여주고 있다. 그러나 트랜스포머 네트워크의 설계는 여전히 도전적인 과제이다. 트랜스포머의 깊이, 임베딩 차원, 헤드 수 등이 비전 트랜스포머의 성능에 큰 영향을 미친다는 것이 관찰되었다. 기존 모델들은 이러한 하이퍼파라미터를 수작업으로 설정하였다. 본 연구에서는 비전 트랜스포머 탐색을 위한 새로운 일회성 아키텍처 검색 프레임워크인 AutoFormer을 제안한다. AutoFormer은 슈퍼넷 학습 과정에서 동일한 레이어 내의 다양한 블록들의 가중치를 얽어 매끄럽게 연결한다. 이 전략 덕분에 학습된 슈퍼넷은 수천 개의 하위 네트워크를 매우 잘 학습시킬 수 있다. 구체적으로, 슈퍼넷에서 상속된 가중치를 갖는 하위 네트워크의 성능은 처음부터 재학습한 경우와 유사한 수준에 도달한다. 또한, 검색된 모델인 AutoFormer은 최근의 최신 기술인 ViT 및 DeiT를 초월한다. 특히, AutoFormer-tiny/small/base는 각각 570만/2290만/5370만 파라미터를 사용하여 ImageNet에서 74.7%/81.7%/82.4%의 top-1 정확도를 달성한다. 마지막으로, 하위 작업 벤치마크 및 디스틸레이션 실험을 통해 AutoFormer의 전이 가능성(transferability)을 검증하였다. 코드와 모델은 https://github.com/microsoft/AutoML 에서 공개되어 있다.