4달 전
AdaViT: 효율적인 비전 트랜스포머를 위한 적응형 토큰
Yin, Hongxu ; Vahdat, Arash ; Alvarez, Jose ; Mallya, Arun ; Kautz, Jan ; Molchanov, Pavlo

초록
우리는 다양한 복잡도를 가진 이미지의 추론 비용을 적응적으로 조정하는 방법인 A-ViT를 소개합니다. A-ViT는 네트워크 내에서 처리되는 토큰 수를 자동으로 줄임으로써 이를 달성합니다. 우리는 이 작업을 위해 Adaptive Computation Time (ACT)을 재정식화하여 중복된 공간 토큰을 제거하는 정지를 확장하였습니다. 비전 트랜스포머의 매력적인 구조적 특성이 우리의 적응형 토큰 감소 메커니즘을 네트워크 구조나 추론 하드웨어를 수정하지 않고도 추론 속도를 높이는 것을 가능하게 합니다. 우리는 A-ViT가 정지를 위한 추가적인 매개변수나 하위 네트워크가 필요하지 않음을 보여주며, 이는 적응형 정지를 원래 네트워크 매개변수에 기반하여 학습하기 때문입니다. 또한, 분포적 사전 규제를 도입하여 이전 ACT 접근법과 비교해 훈련을 안정화시킵니다. 이미지 분류 작업 (ImageNet1K)에서 제안된 A-ViT가 정보량이 많은 공간 특성을 필터링하고 전체 컴퓨팅 비용을 절감하는 데 높은 효율성을 보임을 입증하였습니다. 제안된 방법은 DeiT-Tiny의 처리량을 62%, DeiT-Small의 처리량을 38% 개선하면서 오직 0.3%의 정확도 저하만 초래하며, 이는 이전 연구보다 크게 우월한 성능을 나타냅니다. 프로젝트 페이지: https://a-vit.github.io/