17일 전
LeViT: 더 빠른 추론을 위한 ConvNet의 옷을 입은 비전 Transformer
Ben Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin, Hervé Jégou, Matthijs Douze

초록
우리는 고속 환경에서 정확도와 효율성 간의 트레이드오프를 최적화하는 이미지 분류 아키텍처 패밀리를 설계하였다. 본 연구는 최근 주목받고 있는 어텐션 기반 아키텍처의 발견을 활용하여, 고도로 병렬 처리 가능한 하드웨어에서 경쟁력 있는 성능을 발휘할 수 있도록 하였다. 또한, 합성곱 신경망(CNN)에 관한 광범위한 기존 연구에서 도출된 원칙들을 재검토하여, 특히 해상도가 감소하는 활성화 맵(activation maps)의 개념을 트랜스포머에 적용하였다. 더불어, 비전 트랜스포머(Vision Transformers)에 위치 정보를 통합하는 새로운 방법으로 '어텐션 편향(attention bias)'을 도입하였다. 그 결과, 빠른 추론을 위한 하이브리드 신경망인 LeVIT을 제안한다. 다양한 하드웨어 플랫폼에서의 효율성 측정 기준을 고려함으로써, 다양한 응용 시나리오를 가장 잘 반영할 수 있도록 하였다. 광범위한 실험을 통해 제안된 기술적 선택의 타당성을 실증적으로 검증하였으며, 이는 대부분의 아키텍처에 적합함을 보여주었다. 종합적으로 LeVIT은 기존의 합성곱 네트워크(ConvNets)와 비전 트랜스포머 모두에 비해 속도/정확도 트레이드오프 측면에서 뚜렷한 성능 우위를 보인다. 예를 들어, ImageNet의 top-1 정확도 80%에서 CPU 기준으로 LeVIT은 EfficientNet보다 5배 빠르다. 코드는 https://github.com/facebookresearch/LeViT 에서 공개한다.