FastViT: 구조적 재매개변수화를 활용한 빠른 하이브리드 비전 Transformer

최근 트랜스포머와 컨볼루션 설계의 융합은 모델의 정확도와 효율성에서 지속적인 향상을 가져왔다. 본 연구에서는 상태 최적의 지연(latency)-정확도 균형을 달성하는 하이브리드 비전 트랜스포머 아키텍처인 FastViT를 제안한다. 이를 위해 FastViT의 핵심 구성 요소인 새로운 토큰 믹싱 연산자인 RepMixer를 도입한다. RepMixer는 구조적 리패러메트리제이션(structural reparameterization)을 활용하여 네트워크 내 스킵 커넥션(skip-connections)을 제거함으로써 메모리 접근 비용을 낮춘다. 또한 학습 시기 과도한 파라미터화(overparametrization)와 큰 커널 컨볼루션을 적용하여 정확도를 향상시키며, 실험적으로 이러한 선택이 지연 시간에 거의 영향을 미치지 않는다는 것을 입증한다. 결과적으로, 같은 ImageNet 데이터셋 정확도를 달성했을 때, 본 모델은 최근 최상위 성능을 보인 하이브리드 트랜스포머 아키텍처인 CMT보다 3.5배 빠르며, EfficientNet보다 4.9배 빠르고, ConvNeXt보다 1.9배 빠르다. 유사한 지연 시간에서 본 모델은 MobileOne보다 ImageNet에서 Top-1 정확도가 4.2% 더 높다. 본 모델은 이미지 분류, 객체 탐지, 세그멘테이션, 3D 메시 회귀 등 다양한 작업에서 경쟁 아키텍처를 일관되게 능가하며, 모바일 디바이스와 데스크톱 GPU 모두에서 지연 시간 측면에서 뚜렷한 개선을 보인다. 더불어 본 모델은 분포 외 샘플(out-of-distribution samples) 및 노이즈에 대해 매우 뛰어난 강건성(robustness)을 보이며, 경쟁하는 강건 모델들보다 우수한 성능을 발휘한다. 코드와 모델은 https://github.com/apple/ml-fastvit 에 공개되어 있다.